Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
ì Correlação e Regressão
Análise de dados. Tópico 1 Prof. Dr. Ricardo Primi & Prof. Dr. Fabian Javier Marin Rueda Adaptado de Gregory J. Meyer, University of Toledo, USA; Apresentação na Universidade e São Francisco, São Paulo, Brasil 31 Julho, 2007
Correlação e Regressão
ì Mensura a relação entre variáveis Correlação = co-‐relação = co-‐variância = r
ì Geralmente examina variáveis bidimensionais
ì Mas diferenças de média entre grupos também podem ser expressas por meio da co-‐relação ì e.g., VI = DiagnósWco: Transtorno PsicóWco (codificado como 1) vs. outros
transtornos (codificados como 0) VD = X-‐% como um índice de Acurácia Perceptual ì t-‐test comparando MPsychoWc vs. MOther de X-‐% pode ser expressa como a
r do DiagnósWco com X-‐% ì i.e., rDiagnosWco -‐X-‐%
ì r e t terão o mesmo valor de p ou de significância esta`sWca
Correlação e Regressão
ì Em geral as medidas estão associadas por relações lineares ì Mas existem técnicas para correlações e regressões não lineares
ì Correlação ≠ Causalidade
ì r’s assumem valores entre -‐1.0 e +1.0 ì O sinal mostra a direção das relações ì Os valores absolutos mostram a magnitude da relação
ì 0.0 = ausência de relação ì -‐1.0 or +1.0 = relação perfeita
ì Visualizando as magnitudes das correlações ì "ForcedDegreeofCorrelaWon.sps"
var 1
2 3 4 5
0.38 0.12
1 2 3 4 5
0.30
2.0
2.5
3.0
3.5
4.0
4.5
0.272
34
5
●
var 2
0.05 0.26 0.26
● ●
var 3
0.04
12
34
5
0.26
12
34
5
● ● ●
var 4
0.02
2.0 2.5 3.0 3.5 4.0 4.5
● ●
1 2 3 4 5
● ●
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
var 5
Correlation plot
T2_44O1T2_40O1T2_30O1T2_25O1T2_20O1T2_15O1T2_10O1T2_05O1T2_41O0T2_35O0T2_34N1T2_24N1T2_09N1T2_39N0T2_29N0T2_19N0T2_14N0T2_04N0T2_36E1T2_26E1T2_16E1T2_11E1T2_01E1T2_31E0T2_21E0T2_06E0T2_38C1T2_33C1T2_28C1T2_13C1T2_03C1T2_43C0T2_23C0T2_18C0T2_08C0T2_42A1T2_32A1T2_22A1T2_17A1T2_07A1T2_37A0T2_27A0T2_12A0T2_02A0
T2_02A0
T2_07A1
T2_12A0
T2_17A1
T2_22A1
T2_27A0
T2_32A1
T2_37A0
T2_42A1
T2_03C
1T2_08C
0T2_13C
1T2_18C
0T2_23C
0T2_28C
1T2_33C
1T2_38C
1T2_43C
0T2_01E1
T2_06E0
T2_11E1
T2_16E1
T2_21E0
T2_26E1
T2_31E0
T2_36E1
T2_04N
0T2_09N
1T2_14N
0T2_19N
0T2_24N
1T2_29N
0T2_34N
1T2_39N
0T2_05O
1T2_10O
1T2_15O
1T2_20O
1T2_25O
1T2_30O
1T2_35O
0T2_40O
1T2_41O
0T2_44O
1 −1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
var 1
1 2 3 4 5
0.30
23
45
0.321
23
45
●
var 2
0.43
2 3 4 5
● ●
1 2 3 4 5
12
34
5
var 3
Correlation plot
T5_24Em1
T5_23Em1
T5_22Em1
T5_21Em1
T5_20Em1
T5_19Em1
T5_18Em1
T5_17Em1
T5_16Sc1
T5_15Sc1
T5_14Sc1
T5_13Sc1
T5_12Sc1
T5_11Sc1
T5_10Sc1
T5_09Sc1
T5_08Ac1
T5_07Ac1
T5_06Ac1
T5_05Ac1
T5_04Ac1
T5_03Ac1
T5_02Ac1
T5_01Ac1
T5_01Ac1
T5_02Ac1
T5_03Ac1
T5_04Ac1
T5_05Ac1
T5_06Ac1
T5_07Ac1
T5_08Ac1
T5_09Sc1
T5_10Sc1
T5_11Sc1
T5_12Sc1
T5_13Sc1
T5_14Sc1
T5_15Sc1
T5_16Sc1
T5_17Em1
T5_18Em1
T5_19Em1
T5_20Em1
T5_21Em1
T5_22Em1
T5_23Em1
T5_24Em1 −1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
Correlation plot
SE
Grit
SlfSoc
SlfEmo
SlfAcd
Locus
ProSoc
PeerProb
HypAc
EmoSym
CndProb
Open2
Neuro2
Extra2
Consc2
Agree2
Open1
Neuro1
Extra1
Consc1
Agree1
Agree1
Consc1
Extra1
Neuro1
Open1
Agree2
Consc2
Extra2
Neuro2
Open2
CndProb
EmoSym
HypAc
PeerProb
ProSoc
Locus
SlfAcd
SlfEmo
SlfSoc Grit SE
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
GF_GC
800700600500400300200
RMG
10
9
8
7
6
5
4
3
2
1
0
EPN_EG
16014513011510085705540
RG
20
18
16
14
12
10
8
6
4
2
0
Correlação e Regressão
ì DisWnção esta`sWca ì Correlação
ì 2 variáveis randômicas, X e Y ì Nenhuma delas está sob controle do experimentador
ì Regressão: ì 1 variável fixa (X), 1 variável randômica (Y)
ì se presume X que está sobre controle do experimentador e somente os valores que interessam são estudados
ì Essa disWnção é precisa tecnicamente mas não necessária no uWlização práWca das correlações e regressões
Fórmula
�
r =
xi − x ( )sx
⎛ ⎝ ⎜
⎞ ⎠ ⎟
yi − y ( )sy
⎛
⎝ ⎜ ⎞
⎠ ⎟ i=1
N
∑N −1( )
�
r =zxi zyi
i=1
N
∑N −1
Produto-‐momento! ì A média do produto de dois momentos indicando co-‐relação
ì Produto : mulWplicação de duas variáveis (X, Y)
ì Momento: função aplicada a média de desvios
ì Momentos centrais: : 1o = Média, 2º = Variancia, 3º = Assimetria, 4o = Kurtose
ì Os escores z são momentos
ì Desvios da média em unidades de desvio padrão
ì Co-‐relação: ocorrência simultânea together
ì z para X pareado copm z para Y
ì Então a correlação Produto-‐Momento de Pearson (r) é a magnitude média em que pares de escores (X, Y) se correlacionam por desviarem simultaneamente de suas respecWvas médias
( )X Xzσ−=
X Yz zr
N=∑
Coeficiente de Correlação de Pearson - Produto Momento
n Nota A
Nota B
1 2 3
2 2 2
3 4 5
: : :
9 9 7
10 10 7
11 9 6
12 9 8
Correlação e Regressão
ì DisWnção PráWca ì Correlação:
ì Magnitude de associação entre X e Y ì Ambas podem ser desenhadas no eixo horizontal (abscissa) porque
ambas poderiam ser designadas como X
ì Regressão: ì Usa a associação para desenvolver uma equação que prevê Y a
parWr de X a parWr da melhor forma possível. ì "Regride Y em X" ì Desenha X no eixo horizontal; Y no eixo verWcal (ordenada)
r Produto Momento: Exemplo
ID X Y 1 5 7 2 1 3 3 4 4 4 3 1 5 7 5 M 4.00 4.00 σ 2.00 2.00
Sum
X
876543210
Y
8
7
6
5
4
3
2
1
0
ì Insira X andY no SPSS e calcule o r ì rXY = .60
Reta de regressão Equação preditora:
Ŷ= b0 + b1X
X = valor do preditor
Y = valor do critério
Ŷ= valor predito
b1= inclinação da linha
b0= constante X
876543210
Y
8
7
6
5
4
3
2
1
0
Equação da reta
Reta de regressão
ì Melhor previsão de Y em relação aos valores de X ì Equação de previsão:
Ŷ= b0+ b1X Na qual: X = valor do preditor (variável preditora ou VI) Ŷ= valor previsto de Y (variável resposta ou VD ou critério)
i.e., valor de Y na linha, dado X b1 = inclinação (slope) da linha, Mudança em Ŷ para uma mudança de 1-‐unidade de mudança em X b1 = rXY(SY/SX) b0 = constante (intercept)
Ŷ quando X = 0.0 b0= MY – b1MX
Reta de regressão
ì Gere a equação de regressão do exemplo no SPSS
ì A equação de previsão minimiza os erros, definidos como
SSResidual = ∑(Y – Ŷ)2
ì Em que : ì Y = valores observados (i.e., os valores do gráfico de dispersão) ì Ŷ= valores preditos na reta de regressão
ì Portanto, SSResidual indica a extensão em que a linha não consegue prever os dados observados ì SSResid na regressão é análogo ao SSWG na ANOVA
ì i.e., variabilidade nas células que não pode ser explicada pelo modelo.
Reta de regressão: Exemplo ì SSResid = ∑(Y – Ŷ)2
ì Sum of squared distances of each person's Y score from the line of predicWon
X
876543210
Y
8
7
6
5
4
3
2
1
0
Reta de regressão : Exemplo Equação de previsão: Ŷ= b0 + b1X
b1 = rXY(SY/SX)
= .60(2.236/2.236) = .60 (Porque SY = SX, r = b1; isso é raro acontecer)
b0= MY – b1MX
= 4 – .60(4) = 4 – 2.4 = 1.6
Ŷ= 1.6 + (.60)(X)
Calcule Ŷ para cada X
e.g., for X = 5
Ŷ = 1.6 + (.60)(5) = 4.6
ID X Y Ŷ 1 5 7 2 1 3 3 4 4 4 3 1 5 7 5 M 4.0 4.0 S 2.236 2.236
Reta de regressão : Exemplo Equação de previsão: Ŷ= b0 + b1X
b1 = rXY(SY/SX)
= .60(2.236/2.236) = .60
(Porque SY = SX, r = b1; isso é raro acontecer)
b0= MY – b1MX
= 4 – .60(4) = 4 – 2.4 = 1.6
Ŷ= 1.6 + (.60)(X)
Calcule Ŷ para cada X
e.g., for X = 5
Ŷ = 1.6 + (.60)(5) = 4.6
ID X Y Ŷ 1 5 7 4.60 2 1 3 2.20 3 4 4 4.00 4 3 1 3.40 5 7 5 5.80 M 4.0 4.0 S 2.236 2.236
X
876543210
Y
8
7
6
5
4
3
2
1
0
Ŷ= b0+ b1X = 1.6 + (.60)(X) b1 = .60; mudança no escore bruto de Ŷ para 1a unidade de mudança em X b0 = 1.6; constante; valor de Ŷquando X = 0
Reta de regressão exemplo
ì Como na ANOVA, a análise de regressão parWciona a variância da variável dependente em componentes mutuamente exclusivos e exausWvos: ì 1. Aquilo que é explicado pelo modelo
ì i.e., pela VI ou VIs ì 2. Aquilo que não pode ser explicado pelo modelo
ì i.e., variância residual
ì SSTotal = SSModelo + SSResidual ì Como definido, SSResidual = ∑(Y – Ŷ)2
ì Soma das distâncias ao quadrado de cada escore Y das pessoas em relação a reta de regressão (linha de predição)
Soma de Quadrados da Regressão ì SSResidual = ∑(Y – Ŷ)2
ì Soma das distâncias ao quadrado de cada escore Y das pessoas em relação a reta de previsão
X
876543210
Y
8
7
6
5
4
3
2
1
0
Soma de Quadrados da Regressão ì SSTotal = ∑(Y–MY)2
ì Soma das distâncias ao quadrado de cada escore Y das pessoas em relação à média geral de Y
ì i.e., numerador da variância de Y; total de variância na VD
X
876543210
Y
8
7
6
5
4
3
2
1
0
Soma de Quadrados da Regressão ì SSModelo= ∑(Ŷ–MY)2
ì Soma das distâncias ao quadrado de cada escore predito Y (i.e., a linha) da média de Y
ì Indica a variação na VD que pode ser explicada pelo modelo
ì Os pontos observados de dados não são considerados; somente a comparação do modelo de Y tem relação à média de Y
X
876543210
Y
8
7
6
5
4
3
2
1
0
Soma de Quadrados da Regressão
X
876543210
Y
8
7
6
5
4
3
2
1
0
X
876543210
Y
8
7
6
5
4
3
2
1
0
X
876543210
Y
8
7
6
5
4
3
2
1
0
SSTotal = ∑(Y –MY)2
SSModel = ∑(Ŷ –MY)2 SSResidual = ∑(Y – Ŷ)2
Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas
ì Tabelas da ANOVA ì SSModelo é chamado SSRegression ì Variação (i.e., SS) é dividida pelo gl (df)
correspondente para calcular-‐se a a variância (i.e., MS)
ì MS = SS / df
ì F é calculado por MSModelo/MSResidual ì i.e., A variância explicada pelo modelo é maior do que a
variância não explicada? ì Avaliar a significância usando dfNumerador e dfDenominador
Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas
ì ModeloTabelaSumária(Summary table) ì R2 =proporçãodavariânciatotal explicadapelomodelode regressão
ì R2 = SSModel / SSTotal ì No exemplo: R2 = 7.2 / 20.0 = .36
ì R = √R2 = rYŶ ì No exemplo:R = √.36 = .60 ì R = rYŶ = .60
Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas
ì Tabela sumária (cont.) ì R2 ajustado = EsWmaWva do parâmetro populacional , ρ (rho)
ì Em que p = # de preditores ì No exemplo a: Adj. R2 = 1-‐[(1-‐.36)(5-‐1)/(5-‐1-‐1)] ì = 1-‐[(.64*4)/3] = .14667
ì Erro padrão da EsWmaWva (SEE) ì Indica o grau de incerteza na previsão ì SEE = √MSResidual ì No exemplo: SEE = √4.26667 = 2.06559
Coeficientes de regressão: b, B, &β ì Indicam a mudança em Ŷ para cada 1a-‐unidade de mudança em
X ì b = coeficiente de regressão não padronizado
ì Mudança expressa em unidades do escore bruto ì Mudança no escore bruto Ŷpara uma unidade de mudança no escore
bruto de X
ì B = SPSS notação para b ì β (Beta) = coeficiente de regressão padronizado.
ì Mudança expressa em unidades de desvio padrão (SD) ì Número de mudanças em SD em Ŷ para uma mudança de 1 SD em X
Coeficientes de regressão: b, B, &β
ì b pode ser muito maior que β (& vice versa) ì Isso dependerá da unidade de medida
ì b = β quando: ì SX = SY ì e.g., quando X e Y são escores z
ì Interpretação ì b é empregado quando as unidades tenham um senWdo inerente ì e.g., renda, altura, peso
ì β é empregado quando as métricas são arbitrárias ì e.g., maioria das escalas psicológicas
ì Note: b para (constante) é o termo constante (intercept, b0)
Pressupostos
ì Correlação: como uma esta`sWca descriWva não há assunções prévias
ì Regressão: requer 2 assunções ì Ambas relacionadas às distribuições condicionais
Distribuições Marginais e Condicionais
ì Distribuições marginais: ì Distribuição de Y desconsiderando X ì i.e., Variância de Y transpassando todos os níveis de X: S2Y
ì Distribuição condicional: ì DistribuWção de Y condicionada em X ì i.e, Variância de Y em um dado valor de X: S2Y·∙X
ì Considere as diferenças usando a sintaxe do SPSS ì "Marginal andCondiWonalDistribuWons.sps"
Distribuição marginal de Y_50
Marginal Distribution of Y_50
4.003.50
3.002.50
2.001.50
1.00.50
0.00-.50
-1.00-1.50
-2.00-2.50
-3.00-3.50
-4.00
1100
1000
900
800
700
600
500
400
300
200
100
0
Std. Dev = .99
Mean = .01
N = 10000.00
Distribuiçãocondicional de Y_50
Duas assunções na regressão ì Normalidade:
ì Y é normalmente distribuído para cada valor de X ì Procure por assimetria < 2.0 e curtose < 7.0
ì HomocedasWcidade: ì S2 de Y é constante quando calculado separadamente para cada valor
específico de X; i.e., cada distribuição condicional ì Análogo à assunção de variâncias iguais dentro dos grupos no t-‐test ou
ANOVA ì JusWfica o uso de um único MSResidualpara:
ì Calcular a significância esta`sWca ì Determinar o erro padrão da esWmaWva (SEE)
ì SEE é simplesmente o SD das distribuições condicionais ì SEE = SY·∙X
22
ˆ( )(1 )
2use 2 because estimated and from data
Y X Y
Y YS S R
NN a b
⋅
−= = −
−−
∑