View
26
Download
1
Category
Preview:
DESCRIPTION
Utilizando o R. Regressão e correlação. Desejamos descrever a relação entre duas variáveis usando o conceito de regressão linear Método dos mínimos quadrados Outro método Mais outro. Modelo de Regressão Linear Simples. Y é a variável resposta; X é a variável independente; - PowerPoint PPT Presentation
Citation preview
Utilizando o R
Técnicas para Predição de Dados 2
Regressão e correlação Desejamos descrever a relação entre
duas variáveis usando o conceito de regressão linear
Método dos mínimos quadrados
Outro método
Mais outro
Técnicas para Predição de Dados 3
Modelo de Regressão Linear Simples
Y é a variável resposta; X é a variável independente; representa o erro.
iii XY
Técnicas para Predição de Dados 4
Estudo da relação entre variáveis
Investigar a presença ou ausência de relação linear sob dois pontos de vista Quantificando a força dessa relação: correlação Explicitando a forma dessa relação: regressão
Diagrama (Mapa) de dispersão: representação gráfica das duas variáveis quantitativas
Técnicas para Predição de Dados 5
Correlação
No entanto, antes de propor um modelo de regressão é importante verificar o grau de correlação entre as variáveis independentes x e a variável resposta y
Além disso nem sempre uma correlação elevada entre variáveis indica que faz sentido propor um modelo de regressão
Exemplo: produção de bananas versus taxa de natalidade
Técnicas para Predição de Dados 6
Correlação negativa: à medida que x cresce, y decresce.
x = horas de treinamentoy = número de acidentes
Mapas de dispersão e tipos de correlação
60
50
40
30
20
10
0
0 2 4 6 8 10 12 14 16 18 20
Horas de treinamento
Aci
dent
es
Técnicas para Predição de Dados 7
Correlação positiva: à medida que x cresce, y cresce também.
x = nota no vestibulary = média de notas na graduação
Mé
dia
de
not
as
na
gra
dua
ção
Mapas de dispersão e tipos de correlação
4,003,753,50
3,002,752,502,252,00
1,501,75
3,25
300 350 400 450 500 550 600 650 700 750 800Nota no vestibular
Técnicas para Predição de Dados 8
Não há correlação linear.
x = altura y = QI
Mapas de dispersão e tipos de correlação
160150140130120110
1009080
60 64 68 72 76 80
Altura
QI
Técnicas para Predição de Dados 9
Coeficiente de Correlação Linear
Mede a intensidade e a direção da relação linear entre duas variáveis.
2
11
22
11
2
111
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
n
iii
yynxxn
yxyxnr
n = tamanho da amostrax = variável dependente i = 1, …, n.y = variável independente
Técnicas para Predição de Dados 10
Coeficiente de Correlação Linear
O intervalo de r vai de –1 a 1.
Se r está próximo de 1, há uma forte
correlação positiva.
Se r está próximo a –1, há uma forte correlação negativa.
Se r está próximo de 0,
não há correlação
linear.
–1 0 1
Técnicas para Predição de Dados 11
x y 8 78 2 92 5 9012 5815 43 9 74 6 81
FaltasNotafinal
Aplicação
959085807570656055
4540
50
0 2 4 6 8 10 12 14 16
Not
a fin
al
XFaltas
Técnicas para Predição de Dados 12
Regressão e correlação O conjunto de dados “thuesen” tem 24
linha e duas colunas. Os dados estão relacionados com uma anomalia chamada “ventricular shortening velocity” e com o nível de açúcar no sange de pacientes diabéticos tipo I.
data(thuesen) attach(thuesen) thuesen
Técnicas para Predição de Dados 13
Regressão e correlação cor(short.velocity, blood.glucose)
# cálculo da correlação lm (short.velocity ~ blood.glucose)Call:lm(formula = short.velocity ~ blood.glucose) Coefficients: (Intercept) blood.glucose 1.09781 0.02196
short.velocity = 1.098 + 0.022 blood.glucose
Técnicas para Predição de Dados 14
Regressão e correlação summary(lm (short.velocity ~ blood.glucose))Residuals:
Min 1Q Median 3Q Max
-0.40141 -0.14760 -0.02202 0.03001 0.43490
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.09781 0.11748 9.345 6.26e-09 ***
blood.glucose 0.02196 0.01045 2.101 0.0479 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2167 on 21 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.1737, Adjusted R-squared: 0.1343
F-statistic: 4.414 on 1 and 21 DF, p-value: 0.0479
Técnicas para Predição de Dados 15
Regressão e correlação plot(blood.glucose ,short.velocity) abline(lm (short.velocity ~ blood.glucose))
Técnicas para Predição de Dados 16
Regressão e correlação Resíduos e valores ajustados
lm.velo= lm (short.velocity ~ blood.glucose)Valores ajustados
fitted(lm.velo)
Valores dos resíduos resid (lm.velo)
plot (blood.glucose, short.velocity ) lines (blood.glucose, fitted(lm.velo)) ou
lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))
Técnicas para Predição de Dados 17
Regressão e correlação plot (blood.glucose, short.velocity ) lines (blood.glucose, fitted(lm.velo))
ou lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))
segments (blood.glucose,fitted(lm.velo),
blood.glucose,short.velocity)
Técnicas para Predição de Dados 18
Exercício 2 (montgomery)
Um motor de foguete é fabricado unindo um propelente de ignição a um propelente para manter o foguete em vôo. O poder da força da junção dos propelentes é uma característica de qualidade importante. Suspeita-se que o “poder” dessa força está relacionado com a “idade” do recipiente do propelente. O arquivo de dados datafile4.dat contém os dados relativos a 20 observações da força da junção comparados com a idade do recipiente do propelente.
Técnicas para Predição de Dados 19
Exercício 2 (montgomery)
Plote o gráfico de dispersão. Encontre covariância entre os dois vetores de dados Encontre a correlação entre os dois vetores de dados Encontre a média dos dois vetores de dados Encontre os valores de Sxx e Sxy
Encontre os estimadores β0 e β1
Dado o modelo y = β0 + β1x, encontre os valores ajustados para a variável resposta para cada observação da variável explicativa
Encontre o resíduo ei e verifique se ∑ ei = 0 Finalmente, aplique os métodos do exercício 1 ao arquivo
datafile4.dat e compare os resultados. A tabela 2.2 do livro do montgomery apresenta os resultados acima.
Utilizando o R
Recommended