26
1 Marketing Research 상상상상상상 상상상상상 상상 : 상상 상 상상상상상 상상 (relationship) 상 상상상 상 상상상 상상 상상 상상상 상상 상 상상 상상상 상상 상상상 상 상상 . < 상 상상상 상상상상 상상상상 상상 > 상 14 상 상상상상상상상 상상상상 y x y x x 상 상상상상 y 상 상상상 상상상 상상 → 상 상상 상상상 상(positive) 상 상상상상 (linear relationship) 상 상상 . x 상 상상상상 y 상 상상상상 상상상 상상 → 상 상상 상상상 상 (negative)상 상상상상상 상상 . y x 상 상상 상상 상상상상상 상상 상상 상상 상상상상상 상상상 상 상상 → 상 상상 상상상 상상상 상상 상상상 상상 상상상 상 상 상상 . y x x 상 상상상 상상 y 상 상상상상상 상상 상상상상상 상상상 → 상상상상상 상 상상상 상상상 상상상상 (curvilinear relationship) 상 상상상 , 상상상상상 상상 상상상 상 상상 상상상 상상상 상상 상상 . · · · · · · · · · · · · · · · · ·· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ··· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

Embed Size (px)

DESCRIPTION

·. ·. ·. ·. ·. ·. y. ·. ·. ·. ·. ·. ·. y. ·. ·. ·. ·. x 가 커질수록 y 가 커지는 경향이 있음 → 두 변수 간에는 正 ( positive ) 의 선형관계 ( linear relationship ) 가 있다. x 가 커질수록 y 가 작아지는 경향이 있음 → 두 변수 간에는 負 ( negative ) 의 선형관계가 있다. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. ·. - PowerPoint PPT Presentation

Citation preview

Page 1: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

1

Marketing Research

상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 (relationship) 를 안다면 한 변수의 값에

대한 지식을 가질 때 다른 변수의 값을 추정할 수 있다 .< 두 변수의 관계로서 전형적인 유형 >

제 14 장 상관관계분석과 회귀분석제 14 장 상관관계분석과 회귀분석

y

x

y

x

x 가 커질수록 y 가 커지는 경향이 있음 → 두 변수 간에는 正 (positive) 의 선형관계 (linear relationship) 가 있다 .

x 가 커질수록 y 가 작아지는 경향이 있음 → 두 변수 간에는 負 (negative) 의 선형관계가 있다 .

y

x

한 변수 값의 변화로부터 다른 변수 값의 변화방향을 예측할 수 없음 → 두 변수 간에는 관계가 전혀 없거나 거의 없다고 할 수 있다 .

y

x

x 의 증가에 따라 y 는 증가하다가 어느 수준부터는 감소함 → 전체적으로 두 변수의 관계는 곡선관계(curvilinear relationship) 를 가지며 , 곡선관계의 경우 나타날 수 있는 곡선의 형태는 매우 다양 .

····················

···· ·

· ····· ·

···· ·· ·· ·· ·· ·· ·· ··

······

··· · ··· · ··

··

··· · · ··· ··· ·

· · ·· ·

··· · ·········

····················

···· ·

· ····· ·

··

·· ·· ·· ·· ·· ·· ·· ·····

·····

· · ··· · ··

··

Page 2: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

2

Marketing Research• 일반적으로 선형관계에 초점을 두고 두 변수가 ⑴ 선형관계를 갖는지⑵ 선형관계를

갖는다면 어느 방향인지 ⑶ 그 관계는 얼마나 큰지를 분석 .• 상관관계계수 (correlation coefficient) : 상관관계의 크기는 나타내며 , –1 부터 +1

사이의 값을 갖고 두 변수의 상관관계가 正 혹은 負의 방향으로 클수록 +1 또는 –1 에 가깝게 나타나고 두 변수간에 상관관계가 전혀 없으면 상관관계계수는 0 이다 .

상관관계계수의 계산과 유의성 검증 : Pearson 상관관계계수 (Pearson product-moment correlation coefficient) 가 보편적이며 모집단의 상관관계계수는 ρ(rho) 로 나타내며 표본의 상관관계계수는 r 로 나타낸다 .

• 상관관계계수 :

• 검증통계량 :

• 상관관계분석과 단순회귀분석을 위한 자료 : 광고비 지출과 매출액간의 관계를 조사하기 위하여 최근 10 개월의 자료를 수집한 결과는 다음과 같다 . 표본상관관계계수의 계산과정 . 유의성 검증 ( 또는 가설검증 ) 절차 .

분산의분산의공분산의

yx

xy

SSSS

SSr

yx

xy

21

22

n.f.d

r

nrt

n

iiixy

n

iiy

n

iix

YYXXSS

YYSS

XXSS

1

1

2

1

2

Page 3: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

3

Marketing Research광고비와 매출액 자료

( 단위 : 억원 )

월 광고비 매출

1 1.2 101

2 .8 92

3 1.0 110

4 1.3 120

5 .7 90

6 .8 82

7 1.0 93

8 .6 75

9 .9 91

10 1.1 105

매출 y

광고비지출과 매출에 관한 산포도 (scatter diagram)

광고비 지출 x

12

0

11

0

10

0

90

80.6 .7 .8 .9 1.0 1.1 1.2 1.3

·

··· · ·

·· ·

·

Page 4: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

4

Marketing Research

H0 : ρ = 0, H1 : ρ≠0

자료의 계산( 단위 : 억원 )

Yi Xi

101

1.2 5.1 .26 1.326

92 .8 - 3.9 - .14 .546

110

1.0 14.1 .06 .846

120

1.3 24.1 .36 8.676

90 .7 - 5.9 - .24 1.416

82 .8-

13.9- .14 1.946

93 1.0 - 2.9 .06 - 1.74

75 .6 -20.9 - .34 7.106

91 .9 -4.9 - .04 .196

105

1.1 9.1 .16 1.456

평균 95.9

.94 합계 : 23.34

YYi XX i XXYY ii 34231

.YYXXSSn

iiixy

4441

2.XXSS

n

iix

960011

2.,YYSS

n

iiy

8754

96001444

3423.

.,.

.

SSSS

SSr

yx

x

• 상관관계계수의 유의성 검증 : 표본 상관관계계수 .8754로부터 두 변수간에는 실제로 상관관계가 있다고 할 수 있는가 ? α=.05

1225

87541

2108754

1

222

..

.

r

nrtobs

3062802522 .;.n;ttcrit

따라서 α=.05 에서 H0는 기각되며 ,

광고비와 매출액간에는 상관관계가 있다는 결론을 내릴 수 있다 .

30621225 .t.t critobs

Page 5: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

5

Marketing Research< 참고 >

:ρ > 0 이면 , 우측검정 / ρ < 0 이면 , 좌측검정이 된다 . → 단측검증일 경우 연구자의 가설이 지지되기 쉽다 . 통계적 유의성과 실제적 유의성 : 표본으로부터 계산한 r 로써 유의성 검증 ( 또는

가설검증 ) 을 하면 r 이 상당히 작더라도 통계적으로 유의적으로 (statistically significant) 나타나는 경우가 있다 .• 예 : 이 .05 이며 통계적으로 유의적으로 나타난 경우 두 변수 간에 正의

상관관계가 있다고 할 수 있는가 ? → 통계적으로 유의적이지만 실제적 유의성 (substantive significance) 을 판단하는 기준이 필요하며 다음과 같다 .

상관관계의 실제적 유의성

상관관계계수의 범위 상관관계크기에 대한 기술

± .81 ~ ± 1.00 매우 강함

± .61 ~ ± .80 강함

± .41 ~ ± .60 어느 정도 있음

± .21 ~ ± .40 약함

± .00 ~ ± .20 없음

지금까지의 상관관계계수 :

측정도구가 간격척도 또는 비율척도로

측정한 경우를 전제로 한 것 .

r

Page 6: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

6

Marketing Research 서열 상관관계계수 : 변수나 construct 에 대한 측정이 서열척도로 이루어진 자료의 경우

Pearson 상관관계계수 대신 Spearman 서열 상관관계계수 (Spearman rank order correlation coefficient) 를 계산해야 한다 .• 소비자 두 사람이 청량음료 8 개 브랜드의 선호도를 서열로 평가하였다 ( 가장 선호 =

1). 두 사람의 선호도에 대한 서열 상관관계계수를 계산하고 유의성을 검증하라(α=.05).

8 개 브랜드에 대한 두 소비자의 선호순위

브랜드 소비자 A 소비자 B

1 7 1

2 4 5

3 2 3

4 6 4

5 1 8

6 3 7

7 8 2

8 5 6

•서열 상관관계계수 :

( 여기서 , di = Xi – Yi )

16

121

2

nn

dr

n

ii

s

통계학에서는 sample 의 크기가

클수록 유의성이 높아지는

경향이 있다 .

Page 7: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

7

Marketing Research

대상에 동등한 서열을 주고자 하면 3.5 를 부여 (Pearson 상관관계계수를 계산하는 공식을 이용해도 거의 비슷한 값을 얻을 수 있음 .).

단순선형회귀분석 (simple linear regression) 단순회귀분석의 개념 : 두 변수간의 인과관계 (causal relationship) 을 조사하는 방법 .

• 독립변수 ( 예측변수 ; predictor variable) : 영향을 미칠 것으로 생각되는 변수 .• 종속변수 ( 기준변수 ; criterion variable) : 영향을 받을 것으로 생각되는 변수 .• 두 변수간의 관계에서 독립변수와 종속변수의 설정 : 논리적 타당성을 토대로 하며 ,

자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정 .

브랜드 A B서열

didi

2

1 7 1 6 36

2 4 5 - 1 1

3 2 3 - 1 1

4 6 4 2 4

5 1 8 - 7 49

6 3 7 - 4 16

7 8 2 6 36

8 5 6 - 1 1

144

7141648

14461

1

61

21

2

.nn

dr

n

ii

s

• 유의성 검증을 위한 가설 : H0 : ρs= 0, H1 : ρs≠0

• 임계치 (critical value) 는 α=.025 에서 .738 로서 관측치 rs 의 절대값은 .714 로서 임계치 .738 보다 작으므로 H

0는 기각되지 않는다 .• 둘 이상의 대상에 대한 서열이 같은 경우 가운데 서열을 부여한다 . 예를 들어 1, 2 위를 부여한 다음 두 가지

Page 8: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

8

Marketing Research• 논리적 근거없이 어떤 임의의 두 변수 중 하나를 독립변수 , 다른 하나를

종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 추정할 수는 없다 .

최소자승법 : 단순회귀분석에서 가장 기본적인 작업 → 회귀식 ( 회귀방정식 ; regression equation) 을 추정하는 것 .

• 단순회귀식 : Y=β0 + β1X (Y : 종속변수 , β0와 β1은 회귀식의 계수로서 각각 절편과 기울기를 나타냄 )

• 표본의 회귀식 : ( 과 은 각각 추정회귀계수이며 , 은 회귀식으로부터 추정되는 종속변수를 나타냄 )

• 표본의 회귀식은 최소자승법 (least square method) 에 의해 발견됨 .

XˆˆY 10 0 1 Y

x

y

·

··

·네 점의 위치에 대한 경향을 나타내는 여러 개의 직선들 중 경향을 가장 잘 나타내는 직선이 표본의 회귀식이 된다 .

Page 9: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

9

Marketing Research

단순회귀분석• 단순회귀식의 발견 ( 최소자승법에 의한 회귀계수의 추정 )

x

y

·

··

·

· ·· ·

iy

iy

ix

XˆˆY 10 • 네 점의 위치는 각각 (x1, y1), (x2, y2), (x3, y3), (x4, y

4) 이며 , 회귀식을 발견한 경우 각각의 y 값에

대응하는 값을 회귀식으로부터 계산하는 것이 가능 → 각각의 실제값과 이에 대응하는 추정값의 차이 : 추정오차

• 최소자승법에 의한 최적의 회귀식 : 추정오차의 제곱의 합계를 최소화해주는 선이 되며 , 합계값은 SSE(sum 0f squares due to error) 가 된다 .

n

iii yySSE

1

2

XˆˆY 10

XˆYˆ

SS

SSˆx

xy

10

1

y

Page 10: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

10

Marketing Research• 독립변수의 유의성 검증 : 위 식을 통해 발견한 회귀식의 독립변수의 계수 ( ) 는

모집단의 ( 실제 ) 기울기의 추정치이며 , 유의성 검증이 필요하며 , 이를 가설검증형태로 나타내면 , H0 :β1= 0, H1 :β1≠0( 혹은 β1> 0,β1< 0) 대립가설을 설정하는 방식에는 세 가지가 있는데 , 어느 방식을 사용하는가는 연구자의

견해 ( 연구가설 ) 에 달려 있다 .• 독립변수의 유의성 검증을 위한 검증통계량

• 광고비 지출은 매출액에 영향을 미친다고 할 수 있는가 ? 즉 독립변수 , 광고비 지출의 유의성 검증을 하라 (α=.05). H0 :β1= 0, H1 :β1≠0

1

2101

n.f.dSSs

ˆt x

xyy

i

SSˆSSSSE

yn

SSEs

ˆ

1

110

1

2

표준편차추정치값의중심으로한회귀선을

값의설정된귀무가설로추정회귀계수

125444846

0567652101 ...

.SS

s

ˆt xobs

846210973732 ..nSSEs

Page 11: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

11

Marketing Research

α=.05 에서 H0는 기각되며 , 광고비 지출은 매출액에 영향을 미친다는 결론을 내릴

수 있는데 , 만약 연구자가 “광고비 지출이 많을수록 매출 향상될 것이다”라는

연구가설을 설정한다면 H0 : β1= 0, H1 : β1> 0 이며 tcrit = t(α ; n-2) = t(.05 ; 8) = 1.8

6 으로 H0는 기각되고 연구가설은 지지된다 .

• 회귀식을 이용한 종속변수값의 추정 : 회귀식의 독립변수가 유의적이면 , x 값이

주어진 경우 y 값을 추정할 수 있으나 , 독립변수가 비유의적이면 x 는 y 에 영향을

미친다고 할 수 없으므로 x 값으로부터 y 값을 추정해서는 안 된다 .

회귀식에 의하여 y 값을 추정할 때 원래 사용한 x 의 범위 내에서만 가능 ; 원래

그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 가능성이 크기

때문 .

• 독립변수의 설명력 : 독립변수가 종속변수의 분산을 설명하는 정도는 r2로 나타내며 ,

이를 결정계수 (coefficient of determination) 라고 부르고 0 에서 1 사이의 값을 갖는다 .

973733423567652960011 ....,SSˆSSSSE xyy

3062802522 .;.tn;ttcrit

3062125 .t.t critobs

Page 12: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

12

Marketing Research

• 결정계수 :

··

··

·· ·

··y

x

전체분산설명되는 분산

xi

y

iy iy

XˆˆY 10 r2↑→ 설명력↑ / 매우 좋은 추정선

• xi 에 대응하는 y 값은 yi 인데 x 값에 무관하게 yi 값을 추정한다면 그 추정치는 가 되며 이 경우 오차는 이다 . 그런데 회귀식을 이용하여 yi 값을 추정하면 추정치는 이며 , 이 경우 오차는 이 된다 . 결국 회귀식을 이용하여 추정함으로써 원래의 오차에서 만큼의 오차가 줄어들게 된다 .

y yyi iy

ii yy yyi

n

ii

n

iii

n

ii

y

y

yy

yyyy

SS

SSESSr

1

2

1

2

1

2

2

n

ii

n

ii

y yy

yy

SS

SSRr

1

2

1

2

2

전체분산분산설명되는

분산않는설명되지의해회귀분석에

분산설명되는의해회귀분석에

전체분산

(

SSE

regressiontoduesquaresofsumSSR

SS y

)

결정계수가 클수록 그 독립변수는

종속변수를 설명하고 예측하는데

적절한 변수라고 할 수 있다 .

Page 13: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

13

Marketing Research 단순회귀분석의 분산표와 독립변수의 유의성 검증

• SSy( 전체분산 ) = SSR( 회귀식에 의해 설명되는 분산 ) + SSE( 설명되지 않는 분산 )

Total SS = SSR + SSE• 분산분석표

• 광고비와 매출액 예에서의 분산분석표를 이용하여 독립변수의 유의성을 검증하면 , SSR = Total SS – SSE = 1,600.9 – 373.97 =1,226.93

H0 :β1= 0, H1 :β1≠0 Fobs = 26.25 Fcrit = F(α ; 독립변수의 수 , n - 독립변수의 수 - 1) = F(.05 : 1, 8) = 5.32

원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs

회귀식 SSR 1 MSR = SSRMSR/MSE

오차 SSE n – 2MSE = SSE/(n-

2)

합계 Total SS n – 1

원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs

회귀식 SSR = 1,226.93

1 MSR = 1,226.931,226.93/46.75 =

26.25

오차 SSE = 373.97 8MSE = 373.97/8 =

46.75

합계 Total SS 9

Page 14: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

14

Marketing Research Fobs = 26.25 > Fcrit = 5.32 이므로 H0는 기각되므로 α=.05 에서 회귀식의 독립변수는

유의적이며 , 결국 광고비 지출은 매출액에 영향을 미친다고 할 수 있다 . t 값과 F 값간의 관계 : t2(α/2 ; d.f.) = F(α ; 1, d.f.)

• 상관관계와 기울기 : 상관관계와 기울기를 혼동하지 말아야 하며 , 상관관계의 크기와 기울기의 크기는 완전히 독립적임 .

다중회귀분석 (multiple regression analysis) 다중회귀식의 개념 : 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는

기법으로 단순회귀분석을 확장한 것으로 , 가장 기본적인 작업은 다중회귀식 (multiple regression equation) 을 추정하는 것이다 .• 다중회귀식 :

(X : 독립변수 , Y : 종속변수 , β : 회귀계수 , β0 : Y 절편 , β1 ~ βk는 각각 독립변수의 기울기임 )

y y

x x

···· · ·· · ·· ··

· · · ·· · · ·

우측에 비해 기울기는

크지만 상관관계는 낮다 .

kkX...XXY 22110

Page 15: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

15

Marketing Research• 표본의 회귀식 :

( : 추정회귀계수 , : 회귀식으로부터 추정되는 종속변수 ) 다중회귀분석의 가정

• 독립변수와 종속변수 간의 선형적 관계 : 독립변수 값의 변화에 따른 종속변수 값의 변화가 일정해야 함을 의미 .

• 오차항의 정규분포 오차항 (error term) : 종속변수의 관측치와 예측치 간의 차이 . 기대값 = 0, 일정한 분산 (constant variance) 을 갖는 정규분포를 이룬다고 가정 .

• 오차항의 독립성 : 예측의 오차값들은 서로 독립적 → 의 변화에 따라 오차항이 어떤 패턴 (pattern) 을 가져서는 안 된다 .

다중회귀식의 추정방정식• 동시입력방식 (enter) : 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여

분석하는 방법 ( 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력과 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있으며 , 이 방식은 보통 연구자가 생각하는 각각의 독립변수가 다른 변수들이 회귀식에 모두 포함되는 경우 유의적인지를 보고자 하는 경우에 사용 ).

kkXˆ...XˆXˆˆY 22110

i Y

y

Page 16: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

16

Marketing Research• 단계입력방식 (stepwise) : 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이

있는 변수들만을 회귀식에 포함시키는 방식으로 설명력이 높은 변수의 순으로 회귀식에 포함된다 . 그런데 전단계에서 회귀식에 포함된 독립변수도 나중에 들어오는 변수때문에 설명력이 매우 낮아지면 회귀식에서 제거된다 . 이 방식은 종속변수를 설명하는데 설명력이 어느 정도 이상되는 변수들로만 구성되는 회귀식을 발견하는 데 유효 .

다중회귀분석의 computer output 의 설명• 한 방송국에서 65 세 이상 시청자들을 위한 TV 프로그램을 개발하기로 하였다 . 이를

위한 기초정보를 획득하기 위해 25 명의 시청자들을 대상으로 설문조사를 하여 다음의 네 가지 변수에 관한 자료를 수집하였다 . y = 일일 평균 TV 시청시간 x1 = 배우자와 동거여부 ( 만약 배우자와 동거중이면 x1 = 1, 그렇지 않으면 x1 = 0) x2 = 연령 x3 =교육기간 (년수 )

추정방정식추정방정식

동식입력방식동식입력방식 단계입력방식단계입력방식

( 다중회귀식의 대표적 추정방식 )

비율척도 회귀분석에서는 변수를 간격 / 비율척도를 이용하는 것이 일반적이며 , 명목척도를 사용하는 경우도 있다 .

Page 17: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

17

Marketing Research

TV 시청과 관련하여 65 세 이상 시청자로부터 수집한 자료

개인 시청시간 동거여부 연령 교육수준

1 .5 1 73 14

2 .5 1 66 16

3 .7 0 65 15

4 .8 0 65 16

5 .8 1 68 9

6 .9 1 69 10

7 1.1 1 82 12

8 1.6 1 83 12

9 1.6 1 81 12

10 2.0 0 72 10

11 2.5 1 69 8

12 2.8 0 71 16

13 2.8 0 71 12

14 3.0 0 80 9

TV 시청과 관련하여 65 세 이상 시청자로부터 수집한 자료

개인 시청시간 동거여부 연령 교육수준

15 3.0 0 73 6

16 3.0 0 75 6

17 3.2 0 76 10

18 3.2 0 78 6

19 3.3 1 79 6

20 3.3 0 79 4

21 3.4 1 78 6

22 3.5 0 76 9

23 3.6 0 65 12

24 3.7 0 72 12

25 3.7 0 80 6

Page 18: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

18

Marketing Research( 더미변수의 입력 ) 회귀분서의 입력자료는 대개의 경우 간격척도 또는 비율척도로 측정되어 있으나 , 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있다 . 이 경우 이러한 변수를 더미변수 (dummy variable) 라 하며 더미변수의 수와 입력방식은 다음과 같다 .

• 더미변수의 수 = 범주의 수 – 1• 범주의 수가 두 개인 경우 (남 / 여 , yes/no) 더미변수의 수는 한 개이며 , 한 범주를

1 다른 범주를 0 으로 입력 .• 만약 범주의 수가 세 개인 경우 ( 세단형 승용차 , 해취백 , 웨곤형 ) 더미변수의 수는

두 개이며 다음과 같이 입력된다 .

• TV 시청관련 자료의 SPSS 분석결과 ( 다중회귀분석 )

범주 더미변수 1

더미변수 2

세단형 0 0

해취백 1 0

웨곤형 0 1

종속변수의 경우에는 더미변수를

사용하지 않는다 .

모형요약모형 R R 제곱 수정된 R 제곱 추정값의 표준오차

1 .791 (a) .626 .572 .7536

a 예측값 : ( 상수 ), 교육기간 , 동거여부 , 연령

Page 19: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

19

Marketing Research분산분석 (b)

제곱합 자유도 평균제곱 F 유의확률1 선형회귀분석 19.933 3 6.644 11.698 .000(a)

잔차 11.927 21 .568

합계 31.860 24

a 예측값 : ( 상수 ), 교육기간 , 동거여부 , 연령

b 종속변수 : 시청시간

n-k-1 = 25-3-1

= n-1

계수 (a)

모형비표준화계수 표준화계수

t 유의확률B 표준오차 베타

1 ( 상수 ) 1.495 2.637 .567 .577

동거여부 -1.176 .316 -.510 -3.726 .001

연령 3.876E-02

.032 .191 1.214 .238

교육기간 -1.52 .050 -.476 -3.039 .006

a 종속변수 : 시청시간

단위 포함 .어떤 변수가 가장 많은 영향을 미치는가를 볼 때 ( 표준화시킨 값 ; 동거여부>교육기간>연령 )

회귀식의 유용성 검정

동거를 하는 경우 동거를 하지 않는 사람보다 하루에 –1.176 만큼 TV 보는 시간이 적다 .

교육기간이 1 년 길면 TV보는 시간이 -.152 만큼 적다 .

-.152/.05

개별독립변수의 유의성 검정

Page 20: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

20

Marketing Research• 동거여부 : 연령과 교육기간이 있을 때 유의적이다 .

• 연령 : 동거여부와 교육기간이 있을 때 비유의적이다 . → 개별 변수 하나만으로는 유의적일 수 있으나 상관관계가 높은 변수와 함께 있을 경우 설명력이 비유의적이다 .

1) 회귀식의 발견 :

2) 회귀식의 설명력과 통계적 유의성 검증 (R2를 통해 조사 )

R2 : 다중회귀분석의 결정계수로서 0 과 1 사이의 값을 가지며 , 종속변수의 분산 중 독립변수들 ( 혹은 회귀식 ) 에 의해 설명되는 비율 .

• 독립변수가 추가됨으로써 점차 커짐 .

• R2가 클수록 그 회귀식은 보다 높은 설명력을 가지나 , R2를 약간 증가시키기 위해

독립변수가 추가되는 것은 낭비 → 이를 위해 Radj를 이용 .

• Radj : R2를 독립변수의 수와 표본의 수로써 조정한 것으로 R2보다 작으며 , 새로이

추가되는 변수의 추가적 설명력이 매우 작은 R2는 조금이라도 증가하나 Radj는

오히려 감소하므로 이러한 변수를 독립변수에 포함시키는 것은 부적절 .

321 1520387617614951 x.x.x..y

R2 보다 반드시 작다 .

Page 21: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

21

Marketing Research

• 추가적으로 회귀식의 유의성을 검증해야 함 .

• Ho : β1= β2 =…= βk =0

• H1 : 모든 βi가 0 은 아니다 ( 즉 , 적어도 하나의

독립변수는 종속변수에 영향을 미친다 ).• Fobs = MSR/MSE• Fcrit = F(α ; 독립변수의 수 , n – 독립변수의 수 – 1)

• 만약 Fobs > Fcrit이면 H0는 기각된다 .

분산분석표원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs

회귀식 SSR 독립변수의 수 MSR = SSR/ 독립변수의 수 MSR/MSE

오차 SSE n – 독립변수의 수 – 1MSE = SSE/(n – 독립변수의 수 –

1)

전체 Total SS n – 1

6269271193319

933192 ...

.

SSESSR

SSR

TotalSS

SSRR

5721325

12562611

1

111 2 ..

kn

nRRadj

독립변수의 수

설명력이 약한 변수가 들어갈 경우 R2 는 약간이나마 증가하나 Radj 는 감소한다 . ∴ 경제적인 독립변수의 수를 결정할 수 있다 .

Page 22: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

22

Marketing Research• H0 : β1=β2=β3=0, H1 : β1,β2,β3 중 적어도 하나는 0 이 아니다 .

• Fobs = 11.698

• 유의확률 (p-value) = .000 이며 , p-value < α=.05( 또는 .01) 이므로 H0는 기각된다 . 즉 세 개의 독립변수들 중 적어도 한 개는 종속변수에 영향을 미치며 , 발견한 회귀식은 종속변수 (TV 시청시간 ) 을 설명하고 예측하는데 유용하며 , 이때 종속변수 분산의 62.6%는 회귀식 ( 혹은 세 개의 독립변수 ) 에 의해 설명되면 R2

adj를 사용하면 57.2% 가 된다 .

3) 개별 독립변수의 통계적 유의성 검증 : 회귀식이 유용한 것으로 판단되면 각각의 독립변수가 종속변수에 영향을 미치는지를 조사 . Ho : βi = 0, H1 : βi ≠ 0(βi > 0, βi < 0)

tcrit = t(α/2, n – 독립변수 – 1) ← 양측검증

tcrit = t(α, n – 독립변수 – 1) ← 단측검증

만약 이면 H0는 기각된다 .

① 동거여부의 유의성 검증• Ho : βi = 0, H1 : βi ≠ 0

• tobs = - 3.726

• p-value = .001 < α=.05( 또는 .01) 이므로 H0는 기각되며 동거여부는 시청시간에 영향을 미치며 , TV 시청시간을 설명 혹은 예측하는데 유용한 변수라는 결론을 내릴 수 있음 .

iˆiobs sˆt 추정회귀계수

critobs tt

Page 23: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

23

Marketing Research② 연령과 교육기간의 유의성 검증 : 연령의 p-value = .238, 교육기간의 p-value = .006 으로

나타나 연령은 비유의적이며 교육기간은 유의적인 것으로 결론내릴 수 있다 .③ 해석 시 유의사항 :

< 회귀식에 다른 독립변수 ( 들 ) 가 존재하는 경우에 유의적인지의 여부로 해석해야 한다 .> 그러므로• 다른 두 변수가 회귀식에 존재할 때 동거여부는 유의적이다 .• 다른 두 변수가 회귀식에 존재할 때 연령은 유의적이지 않다 .• 다른 두 변수가 회귀식에 존재할 때 교육기간은 유의적이다 .< p-value 에 대한 해석 (SPSS 는 기본적으로 양측검증으로 보고 ) >• 만약 연구가설이 단측검증이라면 p-value 는 SPSS output 에 나타난 값의 정확하게 ½

이다 . • 단측검증의 경우 : p-value뿐만 아니라 회귀계수의 방향이 연구가설 ( 대립가설 ) 과

같은지를 봐야 한다 . : 교육기간과 관련된 연구가설을 “교육기간이 길수록 TV 시청시간이 적어진다 .” 로 설정했다면 H0 : β3 = 0, H1 : β3 < 0 이며 , 로 나타나 대립가설과 방향이 같고 p-value = .003 이므로 H0는 기각되고 연구가설은 지지됨 .

④ 유의적 독립변수의 구체적 해석 : 교육기간 (x3) 의 회귀계수 추정치는 - .152 이므로 교육기간이 1년 길면 TV 시청시간은 평균 .152 시간 적을 것으로 예측 / 동거여부 (x1) 의 회귀계수 추정치는 -1.176 으로 나타났다 . x3의 값 입력 시 배우자와 동거시 = 1, 비동거시 = 0 으로 입력했으므로 동거의 경우 TV 시청시간이 평균 1.176 시간 적을 것으로 예측 .

1523 .ˆ

Page 24: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

24

Marketing Research4) 독립변수들의 상대적 영향력 크기 비교 : 어느 독립변수가 종속변수에 대하여 보다

영향력이 큰지 혹은 작은지에 관한 것 ( 주의 ! 회귀계수 를 비교하면 안 된다 .).

다중회귀분석시 유의할 문제들• 다중공선성 (multicollinearity) : 단순회귀분석을 하는 경우 유의적으로 나타날 수

있는 독립변수가 다중회귀분석을 하는 경우 비유의적으로 나타나는 현상 → 그 독립변수가 다중회귀분석에서 다른 독립변수들과 높은 상관관계를 갖기 때문에 발생 ( 둘 간의 상관관계가 높아 다른 한 변수가 비유의적으로 나올 수 있으므로 , 단순히 다중회귀분석에서 비유의적으로 나타났다고 그냥 비유의적으로 해석해서는 안 된다 ). 다중회귀분석을 위해 동시에 투입되는 독립변수들 간에 상관관계가 0 인 경우는

사실상 없다고 할 수 있으므로 한 독립변수의 유의성이 다른 변수 때문에 약화될 가능성은 언제나 있어 다중회귀분석 결과를 해석할 때 어떤 독립변수( 들 ) 가 비유의적으로 나타나는 경우 다중공선성 때문인지를 점검해야 함 .

i

독립변수들의 단위가 다르며 , 각 회귀계수는 단위를 반영하기 때문이다 . ∴ 회귀계수 값들 자체를 비교해서는 안되며 , 표준화된 회귀계수 (standard beta coefficient ; 입력자료를 표준화시켜 <평균 = 0, 표준편차 = 1> 분석한 것 .) 를 비교해야 한다 . → 세 개의 독립변수 중 TV 시청시간에 가장 영향력이 큰 변수는 동거여부이며 , 그 다음은 교육기간 , 그리고 연령의 순이다 .

Page 25: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

25

Marketing Research 회귀분석의 목적이 어떤 변수가 종속변수에 어떤 방향으로 어느 정도 영향을

미치는지를 조사하는데 있다면 다중공선성에 유의해야 하나 , 다중회귀식을 발견하여 종속변수의 값을 예측하는 데 유일한 목적이 있다면 , 다중공선성은 전혀 문제되지 않는다 .

• TV 시청관련자료 ( 세 개의 독립변수들 중 연령만을 독립변수로 하여 단순회귀분석 )모형요약모형 R R 제곱 수정된 R 제곱 추정값의 표준오차

1 .358(a) .128 .090 1.0989

a 예측값 ( 상수 ), 연령

분산분석 (b)

모형 제곱합 자유도 평균제곱 F 유의확률선형회귀분석 4.086 1 4.086 3.384 .079(a)

잔차 27.774 23 1.208

합계 31.860 24

a 예측값 : ( 상수 ), 연령

b 종속변수 : 시청시간

Page 26: 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계 ( relationship ) 를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을

26

Marketing Research

세 변수의 상관관계 matrix : 연령은 교육기간과 높은 負 (-) 의 상관관계를 가지며 , 다중회귀분석에서 연령이 비유의적으로 나타나는데 중요한 원인이 됨 .

• 회귀식을 이용한 종속변수값 추정 TV 시청관련 자료로써 발견한 회귀식

를 이용하여 y 를 추정하고자 할 때 x2는 65 ~ 83, x3는 6 ~ 16 범위의 값이어야 한다 .

• 표본의 크기 : R2는 독립변수들이 종속변수의 분산을 설명하는 정도를 나타내는 것으로 그 값이 클수록 회귀식은 유용하다고 할 수 있으며 , R2가 크다는 것은 곧 추정오차가 작다는 것을 의미 . 표본의 크기가 작은 경우 r2 또는 R2는 큰 값으로 나타날 수 있으며 , 이와 같은 것은

과다적합 (overfitting) 이라고 하며 , 특히 독립변수의 수가 많은데 표본이 작은 경우 문제가 심각 → 이러한 문제 방지를 위해 가급적 표본의 크기를 크게 해야 하며 , 최소한 독립변수 수의 4배가 되어야 함 (n ≥ 4k)

계수 (a)

모형비표준화계수 표준화계수

t 유의확률B 표준오차 베타

1 ( 상수 ) -3.014 2.919 -1.033 .313

연령 7.250E-02

.039 .358 1.840 .079

a 종속변수 : 시청시간연령의 p-value : 다중회귀분석의 경우 .238 이었으나 단순회귀분석 결과 .079 로 , 훨씬 유의적이며 , 단측검정을 한다면 p-value = .0395 로서 α = .05 에서 연령은 TV 시청시간을 설명하는데 유의적인 변수로 나타남 .

321 1520387617614951 x.x.x..y