54
1 Regressão linear múltipla Modelos de regressão linear múltipla •Em um estudo com 67 escritórios de uma rede financeira, a variável resposta foi o custo operacional no ano que se findou. Haviam 4 variáveis preditoras: o valor médio emprestado aos clientes durante o ano, o número médio de empréstimos, número total de novos empréstimos processados, e índice de salários dos escritórios. (Temos um levantamento). • Num estudo sobre a produtividade de trabalhadores ( em aeronave, navios) o pesquisador deseja controlar o número desses trabalhadores e o bônus pago (remuneração). (Aqui temos um experimento). • Num estudo sobre a resposta à uma droga, o pesquisador deseja controlar as doses da droga e o método de aplicação. (Também temos um experimento). Exemplos:

Regressao Linear Multipla

  • Upload
    stacont

  • View
    230

  • Download
    0

Embed Size (px)

DESCRIPTION

Slides Estatística

Citation preview

  • Regresso linear mltiplaModelos de regresso linear mltiplaEm um estudo com 67 escritrios de uma rede financeira, a varivel resposta foi o custo operacional no ano que se findou. Haviam 4 variveis preditoras: o valor mdio emprestado aos clientes durante o ano, o nmero mdio de emprstimos, nmero total de novos emprstimos processados, e ndice de salrios dos escritrios. (Temos um levantamento). Num estudo sobre a produtividade de trabalhadores ( em aeronave, navios) o pesquisador deseja controlar o nmero desses trabalhadores e o bnus pago (remunerao). (Aqui temos um experimento). Num estudo sobre a resposta uma droga, o pesquisador deseja controlar as doses da droga e o mtodo de aplicao. (Tambm temos um experimento). Num estudo sobre o tempo de CPU, para avaliar a demanda por recursos, o pesquisador decidiu verificar o efeito de X1=disk I/O e X2=memory size.Exemplos:

  • Em todos os exemplos foram necessrias vrias variveis preditoras no modelo para um bom ajuste do mesmo.

    Um modelo contendo vrias variveis preditoras resulta numa estimao mais precisa.

    As anlises aqui desenvolvidas so vlidas para o delineamento inteiramente casualizado.

  • Modelo de regresso de primeira ordem com duas variveis preditorasO modelo de regresso linear dado por:Onde Yi a resposta no i-simo ensaio, Xi1 e Xi2 so os valores das duas variveis preditoras no i-simo ensaio. Os parmetros do modelo so 0, 1, 2 e o termo do erro i.Vamos assumir que E(i)=0, portanto, a funo de regresso do modelo de primeira ordem :A representao grfica desta funo um plano no espao. A figura, na pgina seguinte, mostra este plano para a funo:A funo de regresso na regresso mltipla chamada de superfcie de resposta.

  • 0Plano de resposta(1,33;1,67)E(Yi) = 20,00Yii

  • Significado dos coeficientes de regresso:O parmetro 0 o intercepto do plano de regresso. Se a abrangncia do modelo inclui X1=0 e X2=0 ento 0=10 representa a resposta mdia E(Y) neste ponto. Em outras situaes, 0 no tem qualquer outro significado como um termo separado no modelo de regresso.O parmetro 1 indica a mudana na resposta mdia E(Y) por unidade de acrscimo em X1 quando X2 mantido constante. Da mesma forma 2 indica a mudana na resposta mdia por unidade de aumento em X2 quando X1 mantido constante.Neste modelo, o efeito de X1 sobre a resposta mdia no depende de X2 e vice-versa, assim, dissemos que as variveis preditoras tem efeito aditivo ou no interagem. Temos um modelo de primeira ordem sem interao.Exemplo: considerar o modelo de regresso da figura anterior.Y = vendas no mercado (em 10.000 unidades monetrias); X1= despesas com o ponto de venda (em 1.000 u.m.); X2= gastos com TV (em 1.000 u.m.). Como 1=2, se o gasto em uma localidade aumenta em 1 unidade (1.000 u.m.), enquanto o gasto com TV mantido constante, espera-se um acrscimo nas vendas de 2 unidades (20.000 u.m.).

  • Exerccio: faa a interpretao para 2. Resposta: como 2=5 se o gasto com TV em uma localidade aumenta em 1 unidade (1.000 u.m.) e o gasto com o ponto mantido constante, as vendas esperadas aumentam 50.000 u.m.

    Exerccio: no modeloFaa a interpretao do parmetro k . Resposta: indica a mudana na resposta mdia E(Y) com o acrscimo de uma (1) unidade na varivel preditora Xk, quando todas as outras variveis preditoras so mantidas constantes.

  • Modelo linear geral de regressoVamos supor que temos X1, X2,..., Xp-1 variveis preditoras. Vamos definir o modelo de regresso, com erros normais, em termos das variveis preditoras: Onde: 0, 1,..., p-1, so os parmetros;Xi1,..., Xi,p-1 so constantes conhecidas; i so independentes com distribuio N(0, 2)i=1,2,...,n.A funo resposta para o modelo, como E(i )=0, dada por:Algumas situaes em que podemos usar o modelo em considerao.

  • 1) Temos p-1 variveis preditoras: todas as variveis preditoras apresentam efeito aditivo, ou seja, no apresentam um efeito de interao entre elas (o efeito de uma varivel preditora no depende dos nveis da outra varivel preditora).

    2) As variveis preditoras so qualitativas: neste caso temos variveis como: sexo, invalidez (normal, parcialmente invlido, invlido). Usamos variveis indicadoras, que recebem valores 0 e 1 para identificar as categorias de uma varivel qualitativa.Exemplo: desejamos fazer uma anlise de regresso para estimar a distncia de um hospital (Y), baseado na idade dos pacientes (X1) e sexo (X2). O modelo de regresso :Onde:

  • A resposta mdia do modelo (6) :Para pacientes do sexo masculino, X2=0, temos:Para pacientes do sexo feminino, X2=1, temos:As duas funes respostas representam duas retas paralelas com diferentes interceptos. Exerccio: faa a representao grfica das funes 8 e 9.Outro exemplo: vamos considerar uma terceira varivel no modelo, o status sobre a invalidez dos pacientes, a qual apresenta trs categorias. Em geral, representamos uma varivel qualitativa com c categorias, por meio de c-1 variveis indicadoras. Portanto, no exemplo, vamos definir as variveis X3 e X4 como:

  • O modelo com idade, sexo e status da invalidez fica:Neste curso, temos um captulo somente para o estudo de variveis qualitativas. Como modelar e interpretar os coeficientes de regresso?3) Regresso polinomial: contm termos quadrticos e de maior ordem nas variveis preditoras. Exemplo:

  • O grfico deste modelo uma parbola.Apesar da natureza curvilnea da funo resposta do modelo (11) ele um caso especial do modelo (4). Fazendo-se Xi1=Xi e Xi2=Xi2, temos o modelo (1).

  • 4)Variveis transformadas: uma transformao bastante utilizada a logartmica:O modelo fica:Exerccio: coloque o modelo (13) na forma do modelo de regresso linear geral (4).Basta fazer:A funo resposta complexa. Porm, o modelo (12) da forma do modelo linear geral de regresso.

  • 6) Combinando modelos: Exemplo:Fazendo-se: temos o modelo linear geral de regresso (4).Observe que fazendo-se Xi3=Xi1Xi2 obtemos o modelo linear geral de regresso (4).5) Modelos com efeito da interao entre variveis preditoras. O efeito de uma varivel preditora depende dos nveis das outras variveis preditoras. Exemplo:

  • A figura ilustra um desses modelos mais complexos.

  • Modelo de regresso linear mltipla em termos matriciaisA expresso do modelo linear geral de regresso dada por:Em termos matriciais, precisamos definir:

  • Em termos matriciais, o modelo de regresso linear geral dado por: um vetor de variveis aleatrias independentes e normalmente distribudas com esperana (mdia), E()=0 e matriz de varincia-covarincia dada por:Assim, o vetor das observaes Y tem esperana e varincia dadas por:(17)=2I(18)

  • Exerccio: uma empresa opera estdios fotogrficos para crianas em 12 cidades. A empresa deseja expandir seus estdios para outras cidades semelhantes e deseja investigar se as vendas (Y) podem ser estimadas atravs do nmero de pessoas com 16 anos ou menos (X1) e a renda per capita na cidade (X2). Os resultados foram:

  • A) Escreva o modelo de regresso linear de primeira ordem (sem efeito quadrtico e interao).B) Faa um grfico de disperso (Scatterplot) entre vendas e nmero e outro para vendas e renda.C) Mostre a matriz X, os vetores Y e para os dados do exerccio.D) calcule os valores mdios (esperanas) das observaes, E(Y).

  • Respostas:A)B)

  • C)

  • Estimao dos coeficientes de regressoO sistema de equaes normais para o modelo (17) :E os estimadores de mnimos quadrados so dados por:Mtodo de mxima verossimilhanaVamos considerar o modelo com erros normais (17). A funo de mxima verossimilhana dada por:Os estimadores de mxima verossimilhana so exatamente os mesmos obtidos com o mtodo de mnimos quadrados.(21)

  • Continuao do Exerccio do estdio fotogrfico. Dados os resultados:E) Encontre as estimativas dos parmetros do modelo.F) Apresente a funo de regresso estimada.G) Faa a interpretao das estimativas dos parmetros do modelo.

  • Valores estimados e resduosOs valores estimados so obtidos por:Os resduos so obtidos atravs da expresso matricial:Exerccio: H) para verificar o ajuste do modelo de regresso para os dados, necessrio encontrar os valores estimados e os resduos. Encontre estes resultados para os dados da empresa de estdio fotogrfico.

  • Anlise de varinciaSoma de quadrados e quadrados mdiosOnde J uma matriz n x n de uns e H=X(XX)-1X a matriz de projeo. Os quadrados mdios so dados por:

  • Teste F para regressoHipteses em teste:A estatstica de teste dada por:Se F*> F(; p-1,n-p), rejeitamos a hiptese nula, caso contrrio, aceitamos a hiptese. No devemos esquecer de usar o valor p.Exemplo: continuao do exerccio sobre a empresa de estdio fotogrfico.

  • Exerccio: interprete o teste F da anlise de varincia com o uso do valor p. Se a hiptese nula for rejeitada, isto garante que podemos fazer estimao (predio) vlidas? Resp. no.

  • Coeficiente de determinao (R2)Define-se R2 por:Mede a reduo da variabilidade total de Y associada com o uso do conjunto de variveis X1,...,Xp-1. Como na regresso linear simples, temos:Assim, R2=0 se todas as estimativas bk=0 (k=1,...,p-1), e R2=1 quando todas as observaes Y carem exatamente na superfcie de regresso ajustada, isto , quando:Como R2 aumenta com a adio de variveis explanatrias, sugere-se utilizar o coeficiente de determinao ajustado (corrigido) para os graus de liberdade. O coeficiente de determinao ajustado dado por:

  • Um alto valor de R2 no necessariamente implica que o modelo ajustado se presta para se fazer inferncias precisas, pois apesar de um valor alto de R2, o QME ainda pode ser grande. O modelo pode no ser exatamente linear.Coeficiente de correlao mltipla (R)Exerccio: calcule o coeficiente de determinao (R2), o coeficiente de determinao ajustado (R2a) e o coeficiente de correlao (R), para os dados da empresa de estdios fotogrficos . Faa a interpretao desses coeficientes.Inferncia sobre os parmetros da regressoOs estimadores de mnimos quadrados ou de mxima verossimilhana so no tendenciosos, isto : E(b)=.A matriz de varincia-covarincia dos estimadores, 2(b), dada por:O coeficiente de correlao mltipla mede o relacionamento linear entre Y e .

  • A estimativa da matriz de varincia-covarincia dada por: Intervalo de confiana para os parmetros kPara o modelo com erros normais, (17), temos:Assim, o intervalo para k, com confiana 1- dado por:Exerccio: para o exemplo da empresa de estdios fotogrficos calcule o intervalo de confiana para 2, com confiana de 95%. Faa a interpretao.Exerccio: para o exemplo da empresa de estdios fotogrficos, obtenha s2(b).

  • Testes de hipteses para kHipteses:Estatstica de teste:Critrio do teste:Se |t* |t(1-/2;n-p), aceita-se a hiptese nula, caso contrrio rejeita-se a mesma.Exerccio: para o exemplo da empresa de estdios fotogrficos, teste a hiptese para 2=0 vs a hiptese de que 2 diferente de zero, ao nvel de significncia de 5%. Faa a interpretao. Verifique se chegamos a mesma concluso com o uso do intervalo de confiana.

  • Estimao da resposta mdia e predio de uma nova observaoIntervalo de confiana para E(Yh)Para valores dados de X1,X2,...,XP-1, representados por: Xh1,Xh2,...,Xh,P-1, a resposta mdia representada por E(Yh). Vamos definir o vetor:A resposta mdia estimada, correspondente ao vetor Xh, dada por :

  • A varincia estimada da resposta mdia dada por:O intervalo de confiana para a resposta mdia, E(Yh), dado por:Exerccio: encontre o intervalo de confiana.para a resposta mdia (vendas) considerando Xh1=65,4 (populao objeto) e Xh2=17,6, (renda per capita) com 95%. Faa a interpretao. Voc considera que este intervalo d informao precisa? Utilize os seguintes resultados:

  • Limites de predio para uma nova observao Yh(novo)Os limites de predio com confiana 1- para uma nova observao Yh(nova) correspondente ao vetor Xh, os valores das variveis explanatrias, so:A varincia do erro de predio ( a diferena entre a nova observao e o valor estimado) dado por:Exerccio: a empresa deseja predizer as vendas para uma nova cidade com as seguintes caractersticas Cidade A: Xh1=53,1 Xh2=17,7encontre o intervalo de predio com 95%. Faa a interpretao. Voc considera que este intervalo satisfatrio? Utilize os seguintes resultados:

  • Observao: Isto serve para mostrar que apesar de termos um alto valor para o R2=0,845, no temos preciso suficiente para fazer os intervalos de predio. Assim, alto coeficiente de determinao, no significa que podemos fazer predio precisa.Pode-se pensar em adicionar ou substituir variveis preditoras do modelo.Cautela com extrapolaes.X1X2X1X2

  • Os procedimentos vistos para o modelo de regresso linear simples aplicam-se diretamente para o caso do modelo de regresso linear mltipla. Os captulos 9 e 10 do livro texto apresentam muitos outros procedimentos.Diagnstico do modelo matriz de diagrama de disperso grfico tridimensional (ver a nuvem de pontos de diferentes perspectivas para identificar padres) grficos de resduos (versus: valores estimados, tempo, alguma outra seqncia, variveis regressoras, variveis regressoras omitidas, termos da interao, box-plot(desenho esquemtico), grfico normal de probabilidades) testes para homogeneidade de varincias, normalidade, falta de ajusteExemplo: Empresa de estdio fotogrfico em 21 cidades.

  • OBS POPULACA RENDA VENDAS 1 68.5 16.7 174.4 2 45.2 16.8 164.4 3 91.3 18.2 244.2 4 47.8 16.3 154.6 5 46.9 17.3 181.6 6 66.1 18.2 207.5 7 49.5 15.9 152.8 8 52.0 17.2 163.2 9 48.9 16.6 145.4 10 38.4 16.0 137.2 11 87.9 18.3 241.9 12 72.8 17.1 191.1 13 88.4 17.4 232.0 14 42.9 15.8 145.3 15 52.5 17.8 161.1 16 85.7 18.4 209.7 17 41.3 16.5 146.4 18 51.7 16.3 144.0 19 89.6 18.1 232.6 20 82.7 19.1 224.1 21 52.3 16.0 166.5Dados de 21 cidades da empresa de estdio fotogrfico:Populao (X1)Renda (X2)Vendas (Y)

  • Matriz de diagrama de disperso:Observa-se uma tendncia linear entre vendas (Y) e populao (X1); tambm entre vendas (Y) e renda (X2). Observa-se, tambm, uma relao linear entre X1 e X2. No se observa outliers, no se observa separaes nos dados.

  • A matriz de correlao:Observe que a renda EST CORRELACIONADA com a populao.

  • A figura indica que razovel admitir uma superfcie plana como modelo de regresso para os dados.

  • Exerccio: dados os vetores dos valores estimados e dos resduos. Faa os seguintes grficos e interprete.1 - resduos versus valores estimados2 - resduos versus X13 - resduos versus X24 - resduos versus X1X2 (interao)

  • Y ajustados 187.18411 154.22943 234.39632 153.32853 161.38493 197.74142 152.05508 167.86663 157.7382 136.84602 230.38737 197.18492 222.6857 141.51844 174.21321 228.12389 145.74699 159.00131 230.98702 230.31606 157.0644 ERROS -12.78411 10.170574 9.8036764 1.271469 20.215072 9.7585779 0.7449178 -4.666632 -12.3382 0.3539791 11.512629 -6.084921 9.3142995 3.7815611 -13.11321 -18.42389 0.6530062 -15.00131 1.6129777 -6.216062 9.4356009 X1X21143.95 759.361661.66 779.14 811.371203.02 787.05 894.4 811.74 614.41608.571244.881538.16 677.82 934.51576.88 681.45 842.711621.761579.57 836.8

  • Indica que a funo de regresso linear mltipla adequada (plano) Indica que a suposio de homogeneidade de varincia atendida No apresenta outliers (valores discrepantes).

  • A suposio de normalidade dos erros est satisfeita, ou seja, a distribuio dos erros segue aproximadamente uma distribuio normal.

  • No se observa nenhum padro, indicando que o modelo linear adequado. Homogeneidade de varincias.

  • No se observa nenhum padro, indicando que o modelo linear adequado. Homogeneidade de varincias.

  • Nota-se que no necessrio a incluso da interao X1*X2 no modelo.

  • Grfico dos valores absolutos dos resduos versus valores estimados: homogeneidade de varincias. No se observa um acrscimo ou decrscimo da variabilidade com o aumento dos valores estimados. Portanto, considera-se a suposio de homogeneidade de varincia atendida. Se ocorrer heterogeneidade de varincia, fazer grficos dos resduos absolutos versus cada varivel preditora para identificar qual(is) esto relacionadas com a falta de homogeneidade.

  • Anlise de varincia:Concluso: Rejeita-se H0. Assim, pelo menos um coeficiente de regresso difere de zero.Observao: se o modelo de regresso til para realizar estimao e predio ainda ser visto.

  • Estimao de uma resposta mdia:Interpretao: podemos afirmar com 95% de confiana, que para valor de populao igual a 65,4 e renda igual a 17,6, a venda mdia est entre 185,29 e 196,92. Importante: os consultores da empresa consideram este intervalo preciso para seus objetivos.

  • Intervalo de predio: desejam predizer as vendas para duas novas cidades com as seguintes caractersticas:Cidade A: Populao (Xh1)=65,4 Renda (Xh2)=17,6Cidade B: Populao (Xh1)=53,1 Renda (Xh2)=17,7Cidade ACidade BInterpretao: as vendas esto dentro dos intervalos acima. A preciso dos intervalos deixa desejar. Intervalos mais precisos seriam necessrios, pode-se pensar em outras variveis regressoras para entrar no modelo. Observe que valor de R2 alto no significa boas predies.As duas cidades apresentam caractersticas dentro dos padres da amostra estudada.

  • NOTA: fazer lista de exerccios nmero 6.Medidas Remediadoras Usar modelo apropriado Usar transformaes ( na varivel resposta ou na varivel preditora (quando os efeitos so curvelneos, reduo do efeito de interao)