20
Notas sobre Regressão, Preparadas por L. A. Bertolo Correlação e Regressão Notas preparadas por L.A. Bertolo Índice Termos básicos e conceitos ...................................................................................................................1 Regressão simples ................................................................................................................................5 Regressão Múltipla ..............................................................................................................................13 Terminologia de Regressão ..................................................................................................................20 Fórmulas de Regressão .......................................................................................................................21 Termos Básicos e conceitos 1. Um gráfico de espalhamento (scatter plot) é uma representação gráfica da relação entre duas ou mais variáveis. Num gráfico de espalhamento de duas variáveis x e y, cada ponto no gráfico é um par x-y. 2. Nós usamos regressão e correlação para descrever a variação em uma ou mais variáveis. A. A variação é a soma dos desvios quadrados de uma variável de sua média. Variação= x−x B. A variação é o numerador da variância de uma amostra: Variância = ∑ x−x N−1 C. Ambas, a variação e a variância, são medidas da dispersão de uma amostra. 3. A covariância entre duas variáveis aleatórias é uma medida estatística do grau para o qual as duas variáveis se movem juntas. A. A covariância captura quanto uma variável é diferente da sua média quando a outra variável for diferente da sua média. B. Uma covariância positiva indica que as variáveis tendem a se moverem juntas; uma covariância negativa indica que as variáveis tendem a se moverem em direções opostas. C. A covariância é calculada como a razão da co-variação pelo tamanho da amostra menos um: Covariância = ∑ x −x y −y N−1 onde N é o tamanho da amostra xi é a i-ésima observação da variável x, é a média das observações da variável x, yi é a i-ésima observação da variável y, e é a média das observações da variável y. D. O valor real da covariância não é significante porque ele não é afetado pela a escala das duas variáveis. Isto é o porquê de se calcular o coeficiente de correlação – para tornar algo interpretável da informação da covariância. E. O coeficiente de correlação, r, é uma medida da intensidade da relação entre ou dentre as variáveis. Cálculo: Exemplo1: Preços de vendas de casas e pés quadrados Preços de venda de casas (eixo vertical) v. pés quadrados para uma amostra de 34 casas em Setembro de 2005 em St. Lucie County.

NotasSobreRegressao - Cópia

Embed Size (px)

DESCRIPTION

Regressão Linear

Citation preview

  • Notas sobre Regresso, Preparadas por L. A. Bertolo

    Correlao e Regresso Notas preparadas por L.A. Bertolo

    ndice Termos bsicos e conceitos ...................................................................................................................1 Regresso simples ................................................................................................................................5 Regresso Mltipla ..............................................................................................................................13 Terminologia de Regresso ..................................................................................................................20 Frmulas de Regresso .......................................................................................................................21

    Termos Bsicos e conceitos 1. Um grfico de espalhamento (scatter plot) uma representao grfica da relao entre duas ou mais

    variveis. Num grfico de espalhamento de duas variveis x e y, cada ponto no grfico um par x-y.

    2. Ns usamos regresso e correlao para descrever a variao em uma ou mais variveis.

    A. A variao a soma dos desvios quadrados de uma varivel de sua mdia.

    Variao = x x

    B. A variao o numerador da varincia de uma

    amostra:

    Varincia = x xN 1 C. Ambas, a variao e a varincia, so medidas

    da disperso de uma amostra.

    3. A covarincia entre duas variveis aleatrias uma medida estatstica do grau para o qual as duas variveis se movem juntas.

    A. A covarincia captura quanto uma varivel diferente da sua mdia quando a outra varivel for diferente da sua mdia.

    B. Uma covarincia positiva indica que as variveis tendem a se moverem juntas; uma covarincia negativa indica que as variveis tendem a se moverem em direes opostas.

    C. A covarincia calculada como a razo da co-variao pelo tamanho da amostra menos um:

    Covarincia = x xy y N 1 onde N o tamanho da amostra xi a i-sima observao da varivel x, a mdia das observaes da varivel x, yi a i-sima observao da varivel y, e a mdia das observaes da varivel y.

    D. O valor real da covarincia no significante porque ele no afetado pela a escala das duas variveis. Isto o porqu de se calcular o coeficiente de correlao para tornar algo interpretvel da informao da covarincia.

    E. O coeficiente de correlao, r, uma medida da intensidade da relao entre ou dentre as variveis.

    Clculo:

    Exemplo1: Preos de vendas de casas e ps quadrados Preos de venda de casas (eixo vertical) v. ps quadrados para uma amostra de 34 casas em Setembro de 2005 em St. Lucie County.

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    2 Notas sobre Regresso, Preparadas por L. A. Bertolo

    2

    r = !"#$" %$% ' % ()*+,-./ 0123/2+ 4 5)*+,-./ 0123/2+ 6 5

    r = 7 x xy y 8N 1

    9 :x x:N 1 9 :y y:N 1

    i. O tipo de relao est representada pelo coeficiente de correlao:

    r =+1 correlao perfeitamente positiva +1 >r > 0 relao positiva r = 0 nenhuma relao 0 > r > 1 relao negativa r = 1 correlao perfeitamente negativa

    ii. Voc pode determinar o grau de correlao observando o grfico de espalhamento.

    Se a relao para cima existe correlao positiva. Se a relao para baixo existe correlao negativa.

    Observao x y

    Desvio

    de x

    x - xMdio

    Desvio

    Quadrado

    de x

    (x - xMdio)2

    Desvio

    de y

    y - yMdio

    Desvio

    Quadrado

    de y

    (y - yMdio)2

    Produto

    dos desvios

    (x - xMdio)(y - yMdio)

    1 12 50 -1,50 2,25 8,40 70,56 -12,60

    2 13 54 -0,50 0,25 12,40 153,76 -6,20

    3 10 48 -3,50 12,25 6,40 40,96 -22,40

    4 9 47 -4,50 20,25 5,40 29,16 -24,30

    5 20 70 6,50 42,25 28,40 806,56 184,60

    6 7 20 -6,50 42,25 -21,60 466,56 140,40

    7 4 15 -9,50 90,25 -26,60 707,56 252,70

    8 22 40 8,50 72,25 -1,60 2,56 -13,60

    9 15 35 1,50 2,25 -6,60 43,56 -9,90

    10 23 37 9,50 90,25 -4,60 21,16 -43,70

    Soma 135 416 0,00 374,50 0,00 2342,40 445,00

    Clculos

    xMdio= 135/10 = 13,5

    yMdio= 416/10 = 41,6

    s2

    x= 374,5/9 = 41,611

    s2

    y= 2.342,4/9 = 260,267

    r = (445/9)/((41,611)1/2

    (260,267)1/2

    ) = 49,444/(6,451*16,133) = 0,475

    Nota: A correlao no implica que um causa o outro. Podemos dizer que duas variveis X e Y esto correlacionadas, mas no que X causa Y ou que Y causa X, na mdia eles simplesmente esto relaciona-dos ou associados um com o outro.

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    3

    3 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    iii. O coeficiente de correlao est limitado por 1 e +1. Quanto mais prximo o coeficiente estiver de 1 ou +1,

    mais forte a correlao.

    iv. Com a exceo dos extremos (isto , r = 1,0 ou r = -1), ns no podemos realmente falar acerca da intensidade de uma relao indicada pelo coeficiente de correlao sem um teste estatstico de significncia.

    v. As hipteses de interesse a respeito da correlao da populao, , so:

    Hipteses Nulas H0: = 0 Em outras palavras, no existe correlao entre as duas variveis

    Hipteses Alternativas Ha: =/ 0 Em outras palavras, h uma correlao entre as duas variveis

    vi. O teste estatstico est t-distribudo com n-2 graus de liberdade:

    ; = ??

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    4 Notas sobre Regresso, Preparadas por L. A. Bertolo

    4

    F. Um valor afastado (outlier1) um valor extremo de uma varivel. O valor afastado deve ser bem grande ou

    bem pequeno (onde grande e pequeno so definidos relativamente ao restante da amostra).

    i. Um valor afastado deve afetar a estatstica da amostra, tanto quanto um coeficiente de correlao. possvel para um valor afastado afetar o resultado, por exemplo, tal que conclumos que existe uma relao significante quando de fato no existe nenhuma ou concluir que no existe relao quando de fato h uma relao.

    ii. O pesquisador deve exercitar o julgamento (e cuidado) quando decidir se inclui ou exclui uma observao.

    G. Correlao espria uma aparncia de uma relao quando de fato no existe relao. Valores afastados podem resultar numa correlao espria .

    i. O coeficiente de correlao no indica uma relao causal. Certos itens dados podem estar altamente correlacionados, mas no necessariamente um resultado de uma relao causual.

    ii. Um bom exemplo de uma correlao espria a cada de neve e os preos de aes em Janeiro. Se fizermos uma regresso histrica dos preos de aes versus o total de cada de neve em Minnesota, obteremos uma relao estatstica significante especialmente para os meses de Janeiro. Desde que no existe uma razo econmica para esta relao, este seria um exemplo de correlao espria.

    Regresso Simples 1. Regresso a anlise da relao entre uma varivel e alguma outra varivel(s), assumindo uma relao linear.

    Tambm referida como regresso dos mnimos quadrados e mnimos quadrados ordinrios (ordinary least squares - OLS).

    A. O propsito explicar a variao numa varivel (isto , como uma varivel difere do seu valor mdio) usando a variao em uma ou outras mais variveis.

    B. Suponha que queremos descrever, explicar, ou predizer porque uma varivel difere de sua mdia. Seja a i-sima observao desta varivel representada como Yi, e seja n indicando o nmero de observaes.

    A variao nos Yi's (os quais queremos explicar) : Variaodo Y = y y = SS^ &"_

    C. O princpio dos mnimos quadrados que a linha de regresso determinada minimizando a soma dos

    quadrados das distncias verticais entre os valores reais de Y e os valores previstos de Y.

    1 Uma observao extrema que est bem separada do restante dos dados. Em anlise de regresso, nem todos

    os valores outlying tero uma influncia na funo de ajuste. Estes outlying com respeito a seus valores X (alavancagem alta), e aqueles com valores Y que no so consistentes com a relao de regresso para outros valores (resduos altos) espera-se que sejam influentes. Para testar a influncia de tais valores usada a estatstica Cook

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    5

    5 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    Uma linha um ajuste atravs dos pontos XY tal que a soma dos resduos quadrticos (isto , a soma dos quadrados da distncia vertical entre as observaes e a linha) seja minimizada.

    2. As variveis numa relao de regresso consistem de variveis dependentes e variveis independentes. A. A varivel dependente a varivel cuja variao est sendo explicada pela(s) outra(s) varivel(s).

    Tambm referida como varivel explicada, a varivel endgena, ou a varivel prevista.

    B. A varivel independente a varivel cuja variao usada para explicar aquelas da varivel dependente. Tambm referida como a varivel explicativa, a varivel exgena, ou a varivel previsvel.

    C. Os parmetros numa equao de regresso simples so a inclinao (b1) e o intercepto (b0):

    yi = b0 + b1 xi + i onde yi a i-sima observao da varivel dependente, xi a i-sima observao da varivel independente,

    b0 um intercepto. b1 o coeficiente de inclinao, i um resduo para a i-sima observao.

    D. A inclinao, b1, a variao em Y para uma variao de uma unidade em X. A inclinao pode ser positiva, negativa, ou zero, calculados como:

    b = !a,b!"#' = 76.c6d874.c4d8e.fg ecg [email protected]

    Suponha que: y y x xd = 1.000

    b

    x x = 450

    N = 30

    Ento

    b = g.jjj@klmj@k = NP,PVnRW,WnP

    E. O intercepto, b0, a interseco da linha com o Y- em X=0. O intercepto pode ser positivo, negativo ou

    zero. O intercepto calculado como: boO = y b x

    3. A regresso linear assume o seguinte:

    Sugesto: Pense na linha de regresso como a mdia da relao entre a varivel independente e a varivel dependente . O resduo representa a distncia de quanto um valor observado da varivel dependente (i.e., Y) est longe da relao mdia como descrito pela linha de regresso.

    b = y y

    d x xd N 1 x xd N 1= xy?

    p x y N q x p x N q

    Uma frmula atalho para o coeficiente de correlao:

    Se isto realmente um atalho ou no depende do mtodo de realizar os clculos: manualmente, usando o Microsoft Excel, ou usando uma calculadora.

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    6 Notas sobre Regresso, Preparadas por L. A. Bertolo

    6

    Exemplo 1, continuaao:

    Exemplo 1, continuao: Preos de vendas (eixo vertical) versus ps quadrados para uma amostra de 34 casas venda em Setembro de 2007 em St. Lucie County.

    A. Uma relao linear existe entre as variveis, dependente e indepen-dente.

    Nota: se a relao no linear, pode ser possvel transformar uma ou ambas variveis de modo que exista uma relao linear.

    B. A varivel independente no est correlacionada com os resduos; isto , a varivel independente no aleatria.

    C. O valor esperado do termo distrbio zero; isto , E(i)=0

    D. H uma varincia constante do termo distrbio; isto , os temos distrbio ou resduo so todos extrados de uma distribuio com uma varincia idntica. Em outras palavras, os termos distrbios so homoscedsticos. [Uma violao disto referida como heteroscedasticidade.]

    E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no

    est correlacionado com aquele de outra observao. [Uma violao disto referida como auto-correlao.]

    F. O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo.

    4. O erro padro da estimativa, SEE, (tambm referido como o erro padro do resduo ou erro padro da regresso, e freqentemente indicado como se) o desvio padro dos valores previstos da varivel dependente ao redor da linha de regresso estimada.

    5. Erro padro da estimativa (SEE) = Hs% = 9sst+,.2u1v?

    SEE = 9 7(.?xyj?xy.'[email protected] ? = 9 (.?([email protected]? = 9 %{[email protected]?

    Onde SSResidual a soma dos erros quadrticos; ^ indica o valor predito ou estimado da varivel ou parmetro; e y{ = |o O bo x o ponto na linha de regresso correspondente a um valor da varivel independente , o xi; o valor esperado de y, dado a relao mdia estimada entre x e y.

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    7

    7 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    A. O erro padro da estimativa ajuda-nos calibrar o "ajuste" da linha de regresso; isto , quo bem temos descrito a variao na varivel dependente.

    i. Quanto menor o erro padro, melhor o ajuste.

    ii. O erro padro da estimativa uma medida da proximidade dos valores estimados (usando a regresso estimada), os y 's, esto dos valores reais, os Y's.

    iii. Os is (a.k.a. os termos distrbios; a.k.a. os resduos) so as distncias verticais entre o valor observado de Y e aquele previsto pela equao, os y '

    iv. Os is esto nos mesmos termos (unidades de medidas) que os Ys (p.ex, dollars, pounds, billions)

    6. O coeficiente de determinao, R2, a porcentagem da variao da varivel dependente (variao dos Yi's ou a soma dos quadrados total, SST) explicada pela varivel independente(s).

    A. O coeficiente de determinao calculado como:

    R = ~"#" %'_""~"#" & &"_ = ~"#" & &"_?~"#" %'_""~"#" & &"_ = ss/1v? sst+,.2u1vss/1v = sst+3+,,/ss/1v

    B. Um R2 de 0,49 indica que as variveis independentes explicam 49% da variao da varivel dependente.

    Observao x y

    1 12 50

    2 13 54

    3 10 48

    4 9 47

    5 20 70

    6 7 20

    7 4 15

    8 22 40

    9 15 35

    10 23 37

    Soma 135 416

    Exemplo 2, continuao:

    Considere as seguintes observaes sobre X e Y:

    A linha de regresso estimada : Yi = 25,559 + 1,188 xi

    E os resduos so calculados como:

    Observao x y ^y y-^y e2

    1 12 50 39,82 10,18 103,63

    2 13 54 41,01 12,99 168,74

    3 10 48 37,44 10,56 111,51

    4 9 47 36,25 10,75 115,56

    5 20 70 49,32 20,68 427,66

    6 7 20 33,88 -13,88 192,65

    7 4 15 30,31 -15,31 234,40

    8 22 40 51,70 -11,70 136,89

    9 15 35 43,38 -8,38 70,22

    10 23 37 52,89 -15,89 252,49

    0,00 1.813,77

    Portanto, SSResidual = 1.813,63/8 = 226,70 SEE = (226,70)1/2 = 15,06

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    8 Notas sobre Regresso, Preparadas por L. A. Bertolo

    8

    7. Um intervalo de confiana um intervalo de valores de coeficientes de regresso para um dado valor estimado do coeficiente e um dado nvel de probabilidade.

    A. O intervalo de confiana para um regresso coeficiente |o calculado como: |o ;og

    Ou

    |o ;og< |

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    9

    9 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    ; = |y1 |1|y1

    ii. O teste estatstico tdistribudo com Nk1 graus de liberdade (nmero de observaes (N), menos o nmero de variveis independentes (k), menos um).

    B. Se a estatstica-t maior que o valor-t crtico para o apropriado grau de liberdade, (ou menor que o valor-t crtico uma inclinao negativa) podemos dizer que o coeficiente de inclinao diferente do valor hipottico, b1.

    C. Se no existir relao entre a varivel dependente e uma varivel independente, o coeficiente de inclinao, b1, ser zero.

    Uma inclinao zero indica que no existe variao em Y para uma dada variao em X Uma inclinao zero indica que no existe relao entre Y e X.

    D. Para testar se uma varivel independente explica a variao na varivel dependente, a hiptese que testada se a inclinao zero:

    Ho: b1= 0

    versus a alternativa (que voc conclui se voc rejeitar a nula, Ho):

    Ha: b1 0

    Esta hiptese alternativa referida como uma hiptese bilateral. Isto significa que rejeitamos a nula se a inclinao observada diferente de zero em uma das duas direes (positiva ou negativa).

    E. Existem hipteses na economia que se referem ao sinal da relao entre as variveis dependente e as independentes. Neste caso, a alternativa direcional (> ou

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    10 Notas sobre Regresso, Preparadas por L. A. Bertolo

    10

    10. Interpretao dos coeficientes.

    A. O intercepto estimado interpretado como o valor da varivel dependente (o Y) se a varivel independente (o X) tomar um valor zero.

    B. O coeficiente estimado de inclinao interpretado como a variao na varivel dependente para uma dada variao de uma unidade na varivel independente.

    C. Quaisquer concluses respeito da importncia de uma varivel independente na explicao de uma varivel dependente exige determinar a significncia estatstica se o coeficiente inclinar. Simplesmente olhando para a magnitude do coeficiente de inclinao no indica esta matria de importncia da varivel.

    11. Previso usar regresso envolve fazer predies acerca da varivel dependente baseado nas relaes mdias observadas na regresso estimada.

    A. Valores preditos so valores da varivel dependente baseado nos coeficientes de regresso estimados e uma predio acerca dos valores das variveis independentes.

    B. Para uma regresso simples, o valor de Y predito como:

    Exemplo 4 Suponha que voc estimou um modelo de regresso com as seguintes estimativas: y = 1,50 + 2,5 X1 Alm disso, voc tem valores projetados para a varivel independente, X1=20. O valor projetado para y 51,5: y = 1,50 + 2,50 (20) = 1,50 + 50 = 51,5

    Rejeitar H0 Falha para rejeitar H0 Rejeitar H0 Portanto, rejeitamos a hiptese nula, concluindo que a inclinao diferente de zero.

    Exemplo 3: Testando a significncia de um coeficiente de inclinao Suponha que o coeficiente de inclinao estimado seja 0,78, o tamanho da amostra seja 26, o erro padro da coeficiente seja 0.32, e o nvel de significncia seja 5%. A inclinao diferente de zero?

    O teste estatstico calculado : tb = ogc gyg = O,nV?OO,N = 2,4375

    Os valores-t crticos so = 2,060

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    11

    11 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    y = b0 + bi xp onde y um valor previsto da varivel dependente, e xp um valor previsto da varivel independente (input).

    12. Uma anlise de tabela de varincia (tabela ANOVA) um resumo das explicao da variao da varivel dependente. A forma bsica da tabela ANOVA como segue:

    Fonte de variao Graus de

    Liberdade Soma dos quadrados Mdia Quadrtica

    Regresso (Explicada) 1 Soma das regresses ao quadrado (SSRegresso)

    Regresso Quadrtica Mdia = SSRegresso+/1

    Erro (no explicado) N 2 Soma dos resduos ao quadrado (SSResidual)

    Erro quadrtico mdio = SSResiduo+/N-2

    Total N 1 Soma dos quadrados total (SSTotal)

    Exemplo 5 Fonte de variao

    Graus de Liberdade

    Soma dos quadrados Mdia Quadrtica

    Regresso (Explicada) 1 5.050 5050 Erro (no explicado) 28 600 21.429 Total R2 = 5.050/5.650 = 0,8938 ou 89,38% SEE = (600/28)1/2 = (21.429)1/2 = 4,629

    29 5.650

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    12 Notas sobre Regresso, Preparadas por L. A. Bertolo

    12

    Regresso Mltipla 1. Regresso mltipla a anlise de regresso com mais do que uma varivel independente.

    A. O conceito de regresso mltipla idntico daquele da anlise de regresso simples exceto que duas ou mais variveis independentes so usadas simultaneamente para explicarem as variaes da varivel dependente.

    y = b0 + b1x1 + b2x2 + b3x3 + b4x4

    B. Numa regresso mltipla, a meta minimizar a soma dos erros quadrticos. Cada coeficiente de inclinao estimado enquanto se mantm as outras variveis constantes.

    2. O intercepto na equao de regresso tem a mesma interpretao que ela tinha sob o caso linear simples o intercepto um valor da varivel dependente quando todas as variveis independentes so iguais a zero.

    3. O coeficiente de inclinao um parmetro que reflete a variao na varivel dependente para uma unidade de variao na varivel independente.

    A. Os coeficientes de inclinaes (os betas) so descritos como o movimento na varivel dependente para uma variao de uma unidade de variao na varivel independente mantendo todas as outras variveis independentes constantes.

    B. Por esta razo, os coeficientes betas numa regresso linear mltipla, so algumas vezes chamados de betas parciais ou coeficientes parciais de regresso.

    4. Modelo de Regresso:

    Yi = b0 + b1 x1i + b2 x2i + i

    onde:

    bj a coeficiente de inclinao da j-sima varivel dependente; e xji a i-sima observao da j-sima varivel.

    A. Os graus de liberdade para o teste de um coeficiente de inclinao so N-k-1, onde n um nmero de observaes da amostra e k um nmero de variveis independentes.

    B. Na regresso mltipla, as variveis independentes podem estar correlacionadas umas com as outras, resultando em estimativas menos confiveis. Este problema referido como multi-colinearidade.

    5. Um intervalo de confiana para uma inclinao da regresso de populao numa regresso mltipla um intervalo centrado na inclinao estimada: |o ;og

    ou

    |o ;og< |

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    13

    13 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    B. As variveis independentes no esto correlacionadas com os resduos; isto , a varivel independente no aleatria. Alm disso, no existe relao linear entre duas ou mais variveis independentes. [Nota: isto ligeiramente modificado das hipteses do modelo de regresso simples.]

    C. O valor esperado do termo distrbio zero; isto , E(i)=0

    D. H uma varincia constante do termo distrbio; isto , os termos distrbio ou resduo so todos extrados de uma distribuio com uma varincia idntica. Em outras palavras, os termos distrbios so homoscedsticos. [Uma violao disto referida como heteroscedasticidade2.]

    E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no est correlacionado com aquele de outra observao. [Uma violao disto is referida como auto-correlao.]

    F. O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo.

    G. O resduo (a.k.a. termo distrbio, a.k.a. error term) o que no explicado pelas variveis independentes.

    7. Numa regresso com duas variveis independentes, o resduo para a i-sima observao :

    i =Yi (b 0 + b 1 x1i + 2 b x2i) 8. O erro padro da estimativa (SEE) o erro padro do resduo:

    = = %{[email protected]?? = ss?? 9. Os graus de liberdade, df, so calculados como:

    df = $%# % x%#!"% $%# %!"#!% $%%$%$&% 1 = N k 1 = N k + 1

    A. Os graus de liberdade so o nmero de pedaos de informaes independentes que so usadas para estimar os parmetros de regresso. No clculo dos parmetros de regresso, usamos os seguintes pedaos de informaes:

    A mdia da varivel dependente. A mdia de cada uma das variveis independentes.

    B. Ento, se a regresso uma regresso simples, usamos os dois graus de liberdade na estimao da linha de regresso.

    se a regresso uma regresso mltipla com quatro variveis independentes, usamos cinco graus de liberdade na estimao da linha de regresso.

    10. Previso (Forecasting) usando regresso envolve fazer predies acerca da varivel dependente baseadas nas relaes mdias observadas na regresso estimada.

    2 Em estatstica, uma seqncia ou um vetor de variveis aleatrias heteroscedstico (heteroskedastistic) se as variaveis

    aleatrias tiverem varincias diferentes. O conceito complementar chamado homocedasticidade (homoscedasticity). (Nota: A ortografia alternativa homo- ou heteroskedasticity igualmente correta e tambm usada freqentemente). O termo significa "varincia diferindo" e vem do Grego "hetero" ('diferente') e "skedastios" ('disperso'). Quando usar algumas tcnicas estatsticas, tais como mnimos quadrados ordinrios (ordinary least squares - OLS), vrias hipteses so geralmente feitas. Uma delas que o termo erro tenha uma varincia constante. Isto ser verdadeiro se as observaes do termo erro forem assumidas serem extradas de distribuies idnticas. Heteroscedasticidade uma violao desta hiptese. Por exemplo, o termo erro poder variar ou aumentar com cada observao, de certa forma este o caso freqente com medidas de seo cruzada ou sries temporais. Heteroscedasticidade freqentemente estudada como parte da econometria, que freqentemente lida com dados exibindo ela. Com o advento de erros padres robustos permitindo-nos fazer inferncia sem especificar o segundo momento condicional do termo erro, testar a homoscedasticidade condicional no to importante quanto no passado. O econometricista Robert Engle ganhou o 2003 Nobel Memorial Prize for Economics pelos seus estudos sobre anlise de regresso na presena de heteroscedasticidade, que conduziu sua formulao da tcnica de modelagem ARCH (Auto Regressive Conditional Heteroscedasticity).

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    14 Notas sobre Regresso, Preparadas por L. A. Bertolo

    14

    A. Valores Preditos so valores da varivel dependente baseados na regresso estimada dos coeficientes e uma predio acerca dos valores das variveis independentes.

    B. Para uma regresso simples, o valor de y previsto como:

    y = b 0 + b 1x 1 + b 2 x 2

    onde y o valor previsto da varivel dependente, b i o parmetro estimado, e x i o valor previsto da varivel independente

    C. Quanto melhor for o ajuste da regresso (isto , quanto menor for o SEE), mais confiantes estamos nas nossas predies.

    11. A estatstica-F uma medida de quo bem um conjunto de variveis independentes, como um grupo, explica a variao na varivel dependente.

    A. A estatstica-F calculada como:

    F = %#% "#&" "## "#& = ss = t+3+,,/t+,.2u1veccg

    6z.c6e.fg 6.c6zeccge.fg B. A estatstica-F pode ser formulada para testar todas as variveis independentes como um grupo (a aplicao

    mais comum). Por exemplo, se existirem quatro variveis independentes no modelo, as hipteses so:

    H0: b1 = b2 = b3 = b4 = 0 Ha: no mnimo um bi 0

    C. A Estatstica-F pode ser formulada para testar subconjuntos de variveis independentes (para ver se elas tem poder de explicao incremental (incremental explicativa power). Por exemplo se existirem quatro variveis independentes no modelo, um subconjunto poderia ser examinado:

    H0: b1=b4=0

    Ha: b1 ou b4 0

    12. O coeficiente de determinao, R2, a porcentagem da variao da varivel dependente explicada pelas variveis independentes.

    Exemplo 6: Usando informao da anlise de varincia

    Suponha que estamos estimando com o modelo de regresso mltipla que tem cinco variveis independentes usando uma de 65 observaes. Se a soma dos resduos quadrticos 789, qual o erro padro da estimativa? Soluo Dado: SSResidual = 789 N = 65 k = 5

    SEE = nVQRW?W? = nVQWQ = 13,373

    Exemplo 7: Calculando um valor projetado (forecasted) Suponha que voc est estimando um modelo de regresso com as seguinte estimativas: ^Y = 1,50 + 2,5 X1 0,2 X2 + 1,25 X3 Alm disso, voc tem os valores previstos para as variveis independentes:

    X1=20 X2=120 X3=50 Qual o valor previsto de y?

    Soluo

    O valor previsto para Y 90:

    ^Y = 1,50 + 2,50 (20) 0,20 (120) + 1,25 (50)

    = 1,50 + 50 24 + 62,50 = 90

    Cuidado: O intercepto estimado e todas as inclinaes estimadas so usadas na predio do valor da varivel dependente, mesmo se uma inclinao no for estatisticamente significantemente diferente de zero.

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    15

    15 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    R = ~"#" %'_""~"#" ^ &"_ = 13.1//1v ? 13.1/+40v.121~"#" ^ &"_

    R = (z? ([email protected] (? ([email protected] 0

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    16 Notas sobre Regresso, Preparadas por L. A. Bertolo

    16

    Tabela de Anlise da Varincia (ANOVA)

    Fonte df Graus de Liberdade

    SS Soma dos quadrados

    SS/df Mdia Quadrtica

    Regresso k SSRegresso MSR Erro (no explicado) N k - 1 SSResidual MSE Total N 1 SSTotal

    R2 = = 1

    F =

    14. Variveis Dummy so variveis qualitativas que tomam os valores zero ou um.

    A. A maioria das variveis independentes representa um fluxo contnuo de valores. Entretanto, Alguma vezes a varivel independente de natureza binria (ela ou ON ou OFF).

    B. Estes tipos de variveis so chamadas variveis dummy e aos dados atribudo um valor de "0" ou "1". Em muitos casos, voc aplica o conceito de varivel dummy para quantificar o impacto de uma varivel qualitativa. Uma varivel dummy uma varivel dicotmica; isto , ela toma um valor de um ou zero.

    C. Use uma varivel dummy a menos que o nmero de classes (p.ex., se tem trs classes, use duas variveis dummy), caso contrrio voc cair numa varivel dummy "emboscada" (multicolinearidade perfeita hiptese da violao [2]).

    D. Uma varivel dummy interativa uma varivel dummy (0,1) multiplicada por uma varivel para criar uma nova varivel. A inclinao desta nova varivel diz-nos a inclinao incremental.

    15. Heteroscedasticidade uma situao em que a varincia dos resduos no constante em todas as observaes.

    A. Uma hiptese da metodologia da regresso que a amostra extrada da mesma populao, e que a varincia dos resduos constante nas observaes; em outras palavras, os resduos so homoscedsticos.

    B. Heteroscedasticidade um problema porque os estimadores no tem a menor varincia possvel, e portanto o erro padro dos coeficientes no sero corretos.

    16. Auto-correlao uma situao em que os termos de resduos esto correlacionadas unscom os outros. Isto ocorre freqentemente em anlises de sries temporais.

    A. Auto-correlao aparece geralmente em dados de sries temporais. Se o lucro do ano passado foi maior, isto significa que o lucro deste ano pode ter uma probabilidade maior de ser alto do que ser baixo. Isto um exemplo de auto-correlao positiva. Quando um ano bom for sempre seguido por uma ano ruim, isto um exemplo de auto-correlao negativa.

    B. Auto-correlao um problema porque os estimadores no tem a menor varincia possvel e portanto oerro padro dos coeficientes no seriam corretos.

    17. Multicolinearidade um problema de alta correlao entre ou dentre duas ou mais variveis independentes.

    A. Multicolinearidade uma problema porque

    i. A presena da multicolinearidade pode causar distores no erro padro e pode conduzir a problemas com teste significncia dos coeficientes individuais, e

    ii. Estimativas so sensveis s variaes nas observaes da amostra ou da especificao do modelo.

    B. Se existir multicolinearidade, estamos mais aptos a concluir que uma varivel no importante.

    C. Multicolinearidade est provavelmente presente em certo grau na maioria dos modelos econmicos. Multicolinearidade perfeita nos proibir de estimar os parmetros de regresso. O caso ento realmente a um dos graus.

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    17

    17 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    18. O significado econmico dos resultados de uma estimao de regresso focaliza principalmente nos coeficientes de inclinao.

    A. Os coeficientes de inclinao indicam a variao da varivel dependente para uma variao de uma unidade na varivel independente. Esta inclinao pode ser ento interpretada como uma medida da elasticidade; isto , a variao em uma varivel corresponde a uma variao em outra varivel.

    B. possvel ter significncia estatstica, apesar de que no tenha significncia econmica (p.ex., retornos anormais significantes associados com um anncio, mas estes retornos no so suficientes para cobrirem custos de transaes).

    Para Testar o papel de uma nica varivel na explicao da variao da varivel dependente

    Testar o papel de todas as variveis na explicao da variao da varivel dependente

    Estimar a variao na varivel dependente para uma variao de uma unidade na varivel independente

    Estimar a varivel dependente se todas as variveis independentes tomarem um valor zero Estimar a porcentagem das variaes explicadas das variveis dependentes pelas variveis independentes Prever o valor da varivel dependente dados os valores estimados da varivel independente(s)

    use a estatstica-t. a estatstica-F. o coeficiente de inclinao. o intercepto. o R2. A equao de regresso, substituindo os valores estimados da varivel independente(s) na equao.

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    18 Notas sobre Regresso, Preparadas por L. A. Bertolo

    18

    Regresso terminologia Frmulas de Regresso Variao = x x Varincia = '?'@e.fg? Covarincia = '.?'(.?(de.fg ?

    Correlao r = ) 74.c4d876.c6d8e.fg 5ecg :74.c4d8:@e.fgecg :76.c6d8:@e.fgecg

    ; = ??

  • Notas sobre Regresso, Preparadas por L. A. Bertolo de 22

    19

    19 Notas sobre Regresso,

    Preparadas por L. A. Bertolo

    Testes e intervalos de confiana

    SEE = 7y boO bo x8 N 2 = y y{N 2 = e{

    N 2

    S|y1 = S%

    x xd

    ; = |y1 |1|y1

    F = Regresso quadrtica mdiaErro mdio quadrtico = MSRMSE = SS%#% kSS%"_N k 1

    y{ ydk y y{dN k 1

    Previso

    |o ;og< |

  • de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

    20 Notas sobre Regresso, Preparadas por L. A. Bertolo

    20

    yi = b0 + b1 xi + i y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + i