Correlação)e)Regressão) · Correlação)e)Regressão)! Em(geral(as(medidas(estão(associadas(por(relações(lineares(! Mas(existem(técnicas(paracorrelações(e(regressões(não(lineares

ì Correlação e Regressão

Análise de dados. Tópico 1 Prof. Dr. Ricardo Primi & Prof. Dr. Fabian Javier Marin Rueda Adaptado de Gregory J. Meyer, University of Toledo, USA; Apresentação na Universidade e São Francisco, São Paulo, Brasil 31 Julho, 2007

Correlação e Regressão

ì  Mensura a relação entre variáveis Correlação = co-‐relação = co-‐variância = r

ì  Geralmente examina variáveis bidimensionais

ì  Mas diferenças de média entre grupos também podem ser expressas por meio da co-‐relação ì  e.g., VI = DiagnósWco: Transtorno PsicóWco (codificado como 1) vs. outros

transtornos (codificados como 0) VD = X-‐% como um índice de Acurácia Perceptual ì  t-‐test comparando MPsychoWc vs. MOther de X-‐% pode ser expressa como a

r do DiagnósWco com X-‐% ì  i.e., rDiagnosWco -‐X-‐%

ì  r e t terão o mesmo valor de p ou de significância esta`sWca


ì  Em geral as medidas estão associadas por relações lineares ì  Mas existem técnicas para correlações e regressões não lineares

ì  Correlação ≠ Causalidade

ì  r’s assumem valores entre -‐1.0 e +1.0 ì  O sinal mostra a direção das relações ì  Os valores absolutos mostram a magnitude da relação

ì  0.0 = ausência de relação ì  -‐1.0 or +1.0 = relação perfeita

ì  Visualizando as magnitudes das correlações ì  "ForcedDegreeofCorrelaWon.sps"

var 1

2 3 4 5

0.38 0.12

1 2 3 4 5

0.30

2.0

2.5

3.0

3.5

4.0

4.5

0.272

34

5

●

var 2

0.05 0.26 0.26

● ●

var 3

0.04

12

34

5

0.26

12

34

5

● ● ●

var 4

0.02

2.0 2.5 3.0 3.5 4.0 4.5

● ●

1 2 3 4 5

● ●

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

var 5

Correlation plot

T2_44O1T2_40O1T2_30O1T2_25O1T2_20O1T2_15O1T2_10O1T2_05O1T2_41O0T2_35O0T2_34N1T2_24N1T2_09N1T2_39N0T2_29N0T2_19N0T2_14N0T2_04N0T2_36E1T2_26E1T2_16E1T2_11E1T2_01E1T2_31E0T2_21E0T2_06E0T2_38C1T2_33C1T2_28C1T2_13C1T2_03C1T2_43C0T2_23C0T2_18C0T2_08C0T2_42A1T2_32A1T2_22A1T2_17A1T2_07A1T2_37A0T2_27A0T2_12A0T2_02A0

T2_02A0

T2_07A1

T2_12A0

T2_17A1

T2_22A1

T2_27A0

T2_32A1

T2_37A0

T2_42A1

T2_03C

1T2_08C

0T2_13C

1T2_18C

0T2_23C

0T2_28C

1T2_33C

1T2_38C

1T2_43C

0T2_01E1

T2_06E0

T2_11E1

T2_16E1

T2_21E0

T2_26E1

T2_31E0

T2_36E1

T2_04N

0T2_09N

1T2_14N

0T2_19N

0T2_24N

1T2_29N

0T2_34N

1T2_39N

0T2_05O

1T2_10O

1T2_15O

1T2_20O

1T2_25O

1T2_30O

1T2_35O

0T2_40O

1T2_41O

0T2_44O

1 −1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

var 1

1 2 3 4 5

0.30

23

45

0.321

23

45

●

var 2

0.43

2 3 4 5

● ●

1 2 3 4 5

12

34

5

var 3

Correlation plot

T5_24Em1

T5_23Em1

T5_22Em1

T5_21Em1

T5_20Em1

T5_19Em1

T5_18Em1

T5_17Em1

T5_16Sc1

T5_15Sc1

T5_14Sc1

T5_13Sc1

T5_12Sc1

T5_11Sc1

T5_10Sc1

T5_09Sc1

T5_08Ac1

T5_07Ac1

T5_06Ac1

T5_05Ac1

T5_04Ac1

T5_03Ac1

T5_02Ac1

T5_01Ac1

T5_01Ac1

T5_02Ac1

T5_03Ac1

T5_04Ac1

T5_05Ac1

T5_06Ac1

T5_07Ac1

T5_08Ac1

T5_09Sc1

T5_10Sc1

T5_11Sc1

T5_12Sc1

T5_13Sc1

T5_14Sc1

T5_15Sc1

T5_16Sc1

T5_17Em1

T5_18Em1

T5_19Em1

T5_20Em1

T5_21Em1

T5_22Em1

T5_23Em1

T5_24Em1 −1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Correlation plot

SE

Grit

SlfSoc

SlfEmo

SlfAcd

Locus

ProSoc

PeerProb

HypAc

EmoSym

CndProb

Open2

Neuro2

Extra2

Consc2

Agree2

Open1

Neuro1

Extra1

Consc1

Agree1

Agree1

Consc1

Extra1

Neuro1

Open1

Agree2

Consc2

Extra2

Neuro2

Open2

CndProb

EmoSym

HypAc

PeerProb

ProSoc

Locus

SlfAcd

SlfEmo

SlfSoc Grit SE

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

GF_GC

800700600500400300200

RMG

10

9

8

7

6

5

4

3

2

1

0

EPN_EG

16014513011510085705540

RG

20

18

16

14

12

10

8

6

4

2

0


ì  DisWnção esta`sWca ì  Correlação

ì  2 variáveis randômicas, X e Y ì  Nenhuma delas está sob controle do experimentador

ì  Regressão: ì  1 variável fixa (X), 1 variável randômica (Y)

ì  se presume X que está sobre controle do experimentador e somente os valores que interessam são estudados

ì  Essa disWnção é precisa tecnicamente mas não necessária no uWlização práWca das correlações e regressões

Fórmula

�

r =

xi − x ( )sx

⎛ ⎝ ⎜

⎞ ⎠ ⎟

yi − y ( )sy

⎛

⎝ ⎜ ⎞

⎠ ⎟ i=1

N

∑N −1( )

�

r =zxi zyi

i=1

N

∑N −1

Produto-‐momento! ì  A média do produto de dois momentos indicando co-‐relação

ì  Produto : mulWplicação de duas variáveis (X, Y)

ì  Momento: função aplicada a média de desvios

ì  Momentos centrais: : 1o = Média, 2º = Variancia, 3º = Assimetria, 4o = Kurtose

ì  Os escores z são momentos

ì  Desvios da média em unidades de desvio padrão

ì  Co-‐relação: ocorrência simultânea together

ì  z para X pareado copm z para Y

ì  Então a correlação Produto-‐Momento de Pearson (r) é a magnitude média em que pares de escores (X, Y) se correlacionam por desviarem simultaneamente de suas respecWvas médias

( )X Xzσ−=

X Yz zr

N=∑

Coeficiente de Correlação de Pearson - Produto Momento

n Nota A

Nota B

1 2 3

2 2 2

3 4 5

: : :

9 9 7

10 10 7

11 9 6

12 9 8


ì  DisWnção PráWca ì  Correlação:

ì  Magnitude de associação entre X e Y ì  Ambas podem ser desenhadas no eixo horizontal (abscissa) porque

ambas poderiam ser designadas como X

ì  Regressão: ì  Usa a associação para desenvolver uma equação que prevê Y a

parWr de X a parWr da melhor forma possível. ì  "Regride Y em X" ì  Desenha X no eixo horizontal; Y no eixo verWcal (ordenada)

r Produto Momento: Exemplo

ID X Y 1 5 7 2 1 3 3 4 4 4 3 1 5 7 5 M 4.00 4.00 σ 2.00 2.00

Sum

X

876543210

Y

8

7

6

5

4

3

2

1

0

ì  Insira X andY no SPSS e calcule o r ì  rXY = .60

Reta de regressão Equação preditora:

Ŷ= b0 + b1X

X = valor do preditor

Y = valor do critério

Ŷ= valor predito

b1= inclinação da linha

b0= constante X

876543210

Y

8

7

6

5

4

3

2

1

0

Equação da reta

Reta de regressão

ì  Melhor previsão de Y em relação aos valores de X ì  Equação de previsão:

Ŷ= b0+ b1X Na qual: X = valor do preditor (variável preditora ou VI) Ŷ= valor previsto de Y (variável resposta ou VD ou critério)

i.e., valor de Y na linha, dado X b1 = inclinação (slope) da linha, Mudança em Ŷ para uma mudança de 1-‐unidade de mudança em X b1 = rXY(SY/SX) b0 = constante (intercept)

Ŷ quando X = 0.0 b0= MY – b1MX

Reta de regressão

ì  Gere a equação de regressão do exemplo no SPSS

ì  A equação de previsão minimiza os erros, definidos como

SSResidual = ∑(Y – Ŷ)2

ì  Em que : ì  Y = valores observados (i.e., os valores do gráfico de dispersão) ì  Ŷ= valores preditos na reta de regressão

ì  Portanto, SSResidual indica a extensão em que a linha não consegue prever os dados observados ì  SSResid na regressão é análogo ao SSWG na ANOVA

ì  i.e., variabilidade nas células que não pode ser explicada pelo modelo.

Reta de regressão: Exemplo ì  SSResid = ∑(Y – Ŷ)2

ì  Sum of squared distances of each person's Y score from the line of predicWon

X

876543210

Y

8

7

6

5

4

3

2

1

0

Reta de regressão : Exemplo Equação de previsão: Ŷ= b0 + b1X

b1 = rXY(SY/SX)

= .60(2.236/2.236) = .60 (Porque SY = SX, r = b1; isso é raro acontecer)

b0= MY – b1MX

= 4 – .60(4) = 4 – 2.4 = 1.6

Ŷ= 1.6 + (.60)(X)

Calcule Ŷ para cada X

e.g., for X = 5

Ŷ = 1.6 + (.60)(5) = 4.6

ID X Y Ŷ 1 5 7 2 1 3 3 4 4 4 3 1 5 7 5 M 4.0 4.0 S 2.236 2.236

Reta de regressão : Exemplo Equação de previsão: Ŷ= b0 + b1X

b1 = rXY(SY/SX)

= .60(2.236/2.236) = .60

(Porque SY = SX, r = b1; isso é raro acontecer)

b0= MY – b1MX

= 4 – .60(4) = 4 – 2.4 = 1.6

Ŷ= 1.6 + (.60)(X)

Calcule Ŷ para cada X

e.g., for X = 5

Ŷ = 1.6 + (.60)(5) = 4.6

ID X Y Ŷ 1 5 7 4.60 2 1 3 2.20 3 4 4 4.00 4 3 1 3.40 5 7 5 5.80 M 4.0 4.0 S 2.236 2.236

X

876543210

Y

8

7

6

5

4

3

2

1

0

Ŷ= b0+ b1X = 1.6 + (.60)(X) b1 = .60; mudança no escore bruto de Ŷ para 1a unidade de mudança em X b0 = 1.6; constante; valor de Ŷquando X = 0

Reta de regressão exemplo

ì  Como na ANOVA, a análise de regressão parWciona a variância da variável dependente em componentes mutuamente exclusivos e exausWvos: ì  1. Aquilo que é explicado pelo modelo

ì  i.e., pela VI ou VIs ì  2. Aquilo que não pode ser explicado pelo modelo

ì  i.e., variância residual

ì  SSTotal = SSModelo + SSResidual ì  Como definido, SSResidual = ∑(Y – Ŷ)2

ì  Soma das distâncias ao quadrado de cada escore Y das pessoas em relação a reta de regressão (linha de predição)

Soma de Quadrados da Regressão ì  SSResidual = ∑(Y – Ŷ)2

ì  Soma das distâncias ao quadrado de cada escore Y das pessoas em relação a reta de previsão

X

876543210

Y

8

7

6

5

4

3

2

1

0

Soma de Quadrados da Regressão ì  SSTotal = ∑(Y–MY)2

ì  Soma das distâncias ao quadrado de cada escore Y das pessoas em relação à média geral de Y

ì  i.e., numerador da variância de Y; total de variância na VD

X

876543210

Y

8

7

6

5

4

3

2

1

0

Soma de Quadrados da Regressão ì  SSModelo= ∑(Ŷ–MY)2

ì  Soma das distâncias ao quadrado de cada escore predito Y (i.e., a linha) da média de Y

ì  Indica a variação na VD que pode ser explicada pelo modelo

ì  Os pontos observados de dados não são considerados; somente a comparação do modelo de Y tem relação à média de Y

X

876543210

Y

8

7

6

5

4

3

2

1

0

Soma de Quadrados da Regressão

X

876543210

Y

8

7

6

5

4

3

2

1

0

X

876543210

Y

8

7

6

5

4

3

2

1

0

X

876543210

Y

8

7

6

5

4

3

2

1

0

SSTotal = ∑(Y –MY)2

SSModel = ∑(Ŷ –MY)2 SSResidual = ∑(Y – Ŷ)2

Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas

ì  Tabelas da ANOVA ì  SSModelo é chamado SSRegression ì  Variação (i.e., SS) é dividida pelo gl (df)

correspondente para calcular-‐se a a variância (i.e., MS)

ì  MS = SS / df

ì  F é calculado por MSModelo/MSResidual ì  i.e., A variância explicada pelo modelo é maior do que a

variância não explicada? ì  Avaliar a significância usando dfNumerador e dfDenominador


ì  ModeloTabelaSumária(Summary table) ì  R2 =proporçãodavariânciatotal explicadapelomodelode regressão

ì  R2 = SSModel / SSTotal ì  No exemplo: R2 = 7.2 / 20.0 = .36

ì  R = √R2 = rYŶ ì  No exemplo:R = √.36 = .60 ì  R = rYŶ = .60


ì  Tabela sumária (cont.) ì  R2 ajustado = EsWmaWva do parâmetro populacional , ρ (rho)

ì  Em que p = # de preditores ì  No exemplo a: Adj. R2 = 1-‐[(1-‐.36)(5-‐1)/(5-‐1-‐1)] ì  = 1-‐[(.64*4)/3] = .14667

ì  Erro padrão da EsWmaWva (SEE) ì  Indica o grau de incerteza na previsão ì  SEE = √MSResidual ì  No exemplo: SEE = √4.26667 = 2.06559

Coeficientes de regressão: b, B, &β ì  Indicam a mudança em Ŷ para cada 1a-‐unidade de mudança em

X ì  b = coeficiente de regressão não padronizado

ì  Mudança expressa em unidades do escore bruto ì  Mudança no escore bruto Ŷpara uma unidade de mudança no escore

bruto de X

ì  B = SPSS notação para b ì  β (Beta) = coeficiente de regressão padronizado.

ì  Mudança expressa em unidades de desvio padrão (SD) ì  Número de mudanças em SD em Ŷ para uma mudança de 1 SD em X

Coeficientes de regressão: b, B, &β

ì  b pode ser muito maior que β (& vice versa) ì  Isso dependerá da unidade de medida

ì  b = β quando: ì  SX = SY ì  e.g., quando X e Y são escores z

ì  Interpretação ì  b é empregado quando as unidades tenham um senWdo inerente ì  e.g., renda, altura, peso

ì  β é empregado quando as métricas são arbitrárias ì  e.g., maioria das escalas psicológicas

ì  Note: b para (constante) é o termo constante (intercept, b0)

Pressupostos

ì  Correlação: como uma esta`sWca descriWva não há assunções prévias

ì  Regressão: requer 2 assunções ì  Ambas relacionadas às distribuições condicionais

Distribuições Marginais e Condicionais

ì  Distribuições marginais: ì  Distribuição de Y desconsiderando X ì  i.e., Variância de Y transpassando todos os níveis de X: S2Y

ì  Distribuição condicional: ì  DistribuWção de Y condicionada em X ì  i.e, Variância de Y em um dado valor de X: S2Y·∙X

ì  Considere as diferenças usando a sintaxe do SPSS ì  "Marginal andCondiWonalDistribuWons.sps"

Distribuição marginal de Y_50

Marginal Distribution of Y_50

4.003.50

3.002.50

2.001.50

1.00.50

0.00-.50

-1.00-1.50

-2.00-2.50

-3.00-3.50

-4.00

1100

1000

900

800

700

600

500

400

300

200

100

0

Std. Dev = .99

Mean = .01

N = 10000.00

Distribuiçãocondicional de Y_50

Duas assunções na regressão ì  Normalidade:

ì  Y é normalmente distribuído para cada valor de X ì  Procure por assimetria < 2.0 e curtose < 7.0

ì  HomocedasWcidade: ì  S2 de Y é constante quando calculado separadamente para cada valor

específico de X; i.e., cada distribuição condicional ì  Análogo à assunção de variâncias iguais dentro dos grupos no t-‐test ou

ANOVA ì  JusWfica o uso de um único MSResidualpara:

ì  Calcular a significância esta`sWca ì  Determinar o erro padrão da esWmaWva (SEE)

ì  SEE é simplesmente o SD das distribuições condicionais ì  SEE = SY·∙X

22

ˆ( )(1 )

2use 2 because estimated and from data

Y X Y

Y YS S R

NN a b

⋅

−= = −

−−

∑

Documents

Correlação)e)Regressão) · Correlação)e)Regressão)! Em(geral(as(medidas(estão(associadas(por(relações(lineares(! Mas(existem(técnicas(paracorrelações(e(regressões(não(lineares