20
Utilizando o R

Utilizando o R

  • Upload
    ted

  • View
    26

  • Download
    1

Embed Size (px)

DESCRIPTION

Utilizando o R. Regressão e correlação. Desejamos descrever a relação entre duas variáveis usando o conceito de regressão linear Método dos mínimos quadrados Outro método Mais outro. Modelo de Regressão Linear Simples. Y é a variável resposta; X é a variável independente; - PowerPoint PPT Presentation

Citation preview

Page 1: Utilizando o R

Utilizando o R

Page 2: Utilizando o R

Técnicas para Predição de Dados 2

Regressão e correlação Desejamos descrever a relação entre

duas variáveis usando o conceito de regressão linear

Método dos mínimos quadrados

Outro método

Mais outro

Page 3: Utilizando o R

Técnicas para Predição de Dados 3

Modelo de Regressão Linear Simples

Y é a variável resposta; X é a variável independente; representa o erro.

iii XY

Page 4: Utilizando o R

Técnicas para Predição de Dados 4

Estudo da relação entre variáveis

Investigar a presença ou ausência de relação linear sob dois pontos de vista Quantificando a força dessa relação: correlação Explicitando a forma dessa relação: regressão

Diagrama (Mapa) de dispersão: representação gráfica das duas variáveis quantitativas

Page 5: Utilizando o R

Técnicas para Predição de Dados 5

Correlação

No entanto, antes de propor um modelo de regressão é importante verificar o grau de correlação entre as variáveis independentes x e a variável resposta y

Além disso nem sempre uma correlação elevada entre variáveis indica que faz sentido propor um modelo de regressão

Exemplo: produção de bananas versus taxa de natalidade

Page 6: Utilizando o R

Técnicas para Predição de Dados 6

Correlação negativa: à medida que x cresce, y decresce.

x = horas de treinamentoy = número de acidentes

Mapas de dispersão e tipos de correlação

60

50

40

30

20

10

0

0 2 4 6 8 10 12 14 16 18 20

Horas de treinamento

Aci

dent

es

Page 7: Utilizando o R

Técnicas para Predição de Dados 7

Correlação positiva: à medida que x cresce, y cresce também.

x = nota no vestibulary = média de notas na graduação

dia

de

not

as

na

gra

dua

ção

Mapas de dispersão e tipos de correlação

4,003,753,50

3,002,752,502,252,00

1,501,75

3,25

300 350 400 450 500 550 600 650 700 750 800Nota no vestibular

Page 8: Utilizando o R

Técnicas para Predição de Dados 8

Não há correlação linear.

x = altura y = QI

Mapas de dispersão e tipos de correlação

160150140130120110

1009080

60 64 68 72 76 80

Altura

QI

Page 9: Utilizando o R

Técnicas para Predição de Dados 9

Coeficiente de Correlação Linear

Mede a intensidade e a direção da relação linear entre duas variáveis.

2

11

22

11

2

111

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

yynxxn

yxyxnr

n = tamanho da amostrax = variável dependente i = 1, …, n.y = variável independente

Page 10: Utilizando o R

Técnicas para Predição de Dados 10

Coeficiente de Correlação Linear

O intervalo de r vai de –1 a 1.

Se r está próximo de 1, há uma forte

correlação positiva.

Se r está próximo a –1, há uma forte correlação negativa.

Se r está próximo de 0,

não há correlação

linear.

–1 0 1

Page 11: Utilizando o R

Técnicas para Predição de Dados 11

x y 8 78 2 92 5 9012 5815 43 9 74 6 81

FaltasNotafinal

Aplicação

959085807570656055

4540

50

0 2 4 6 8 10 12 14 16

Not

a fin

al

XFaltas

Page 12: Utilizando o R

Técnicas para Predição de Dados 12

Regressão e correlação O conjunto de dados “thuesen” tem 24

linha e duas colunas. Os dados estão relacionados com uma anomalia chamada “ventricular shortening velocity” e com o nível de açúcar no sange de pacientes diabéticos tipo I.

data(thuesen) attach(thuesen) thuesen

Page 13: Utilizando o R

Técnicas para Predição de Dados 13

Regressão e correlação cor(short.velocity, blood.glucose)

# cálculo da correlação lm (short.velocity ~ blood.glucose)Call:lm(formula = short.velocity ~ blood.glucose) Coefficients: (Intercept) blood.glucose 1.09781 0.02196

short.velocity = 1.098 + 0.022 blood.glucose

Page 14: Utilizando o R

Técnicas para Predição de Dados 14

Regressão e correlação summary(lm (short.velocity ~ blood.glucose))Residuals:

Min 1Q Median 3Q Max

-0.40141 -0.14760 -0.02202 0.03001 0.43490

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.09781 0.11748 9.345 6.26e-09 ***

blood.glucose 0.02196 0.01045 2.101 0.0479 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2167 on 21 degrees of freedom

(1 observation deleted due to missingness)

Multiple R-squared: 0.1737, Adjusted R-squared: 0.1343

F-statistic: 4.414 on 1 and 21 DF, p-value: 0.0479

Page 15: Utilizando o R

Técnicas para Predição de Dados 15

Regressão e correlação plot(blood.glucose ,short.velocity) abline(lm (short.velocity ~ blood.glucose))

Page 16: Utilizando o R

Técnicas para Predição de Dados 16

Regressão e correlação Resíduos e valores ajustados

lm.velo= lm (short.velocity ~ blood.glucose)Valores ajustados

fitted(lm.velo)

Valores dos resíduos resid (lm.velo)

plot (blood.glucose, short.velocity ) lines (blood.glucose, fitted(lm.velo)) ou

lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))

Page 17: Utilizando o R

Técnicas para Predição de Dados 17

Regressão e correlação plot (blood.glucose, short.velocity ) lines (blood.glucose, fitted(lm.velo))

ou lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))

segments (blood.glucose,fitted(lm.velo),

blood.glucose,short.velocity)

Page 18: Utilizando o R

Técnicas para Predição de Dados 18

Exercício 2 (montgomery)

Um motor de foguete é fabricado unindo um propelente de ignição a um propelente para manter o foguete em vôo. O poder da força da junção dos propelentes é uma característica de qualidade importante. Suspeita-se que o “poder” dessa força está relacionado com a “idade” do recipiente do propelente. O arquivo de dados datafile4.dat contém os dados relativos a 20 observações da força da junção comparados com a idade do recipiente do propelente.

Page 19: Utilizando o R

Técnicas para Predição de Dados 19

Exercício 2 (montgomery)

Plote o gráfico de dispersão. Encontre covariância entre os dois vetores de dados Encontre a correlação entre os dois vetores de dados Encontre a média dos dois vetores de dados Encontre os valores de Sxx e Sxy

Encontre os estimadores β0 e β1

Dado o modelo y = β0 + β1x, encontre os valores ajustados para a variável resposta para cada observação da variável explicativa

Encontre o resíduo ei e verifique se ∑ ei = 0 Finalmente, aplique os métodos do exercício 1 ao arquivo

datafile4.dat e compare os resultados. A tabela 2.2 do livro do montgomery apresenta os resultados acima.

Page 20: Utilizando o R

Utilizando o R