71
2014514

2014년 5월 14일 - pluto.hallym.ac.krpluto.hallym.ac.kr/highstat/abstract.pdf · 제 3 장 공분산분석(ANCOVA; ANalysis of COVAriance) 25 제 4 장 반복측정 분산분석(repeated

Embed Size (px)

Citation preview

통계자료분석강희모

2014년 5월 14일

목 차

제 1 장 여러 가지 평균 비교 1

1.1. 단일표본 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. 독립인 두 표본 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3. 대응표본 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

제 2 장 분산분석(ANalysis Of VAriance) 13

2.1. one–way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1. 평균비교 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.2. 다중비교(multiple comparison) . . . . . . . . . . . . . . . . . 15

2.1.3. 대비(contrast) . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2. two–way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

제 3 장 공분산분석(ANCOVA; ANalysis of COVAriance) 25

제 4 장 반복측정 분산분석(repeated measures anova) 35

4.1. one–way repeated measures . . . . . . . . . . . . . . . . . . . . . . . 36

4.2. two–way repeated measures . . . . . . . . . . . . . . . . . . . . . . . 39

제 5 장 회귀분석(regression analysis) 45

제 6 장 범주형자료분석 51

6.1. 적합도 검정(goodness–of–fit test) . . . . . . . . . . . . . . . . . . . . 51

6.2. 독립성 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.3. 동일성 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.4. likelihood ratio test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.5. linear–by–linear association . . . . . . . . . . . . . . . . . . . . . . . 62

i

참고 문헌 62

ii

표 목차

3.1 나병간균 환자 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2 순차제곱합 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3 부분제곱합 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.4 나병간균 환자 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1 근전도 자료 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.1 승산비 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6.2 우도비 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.3 선형대 선형결합 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

iii

그림 목차

1.1 H1 : µ > µ0일 때 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 단일표본 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 SPSS 출력결과(단일표본) . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 독립인 두 표본 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.5 SPSS 출력결과(독립인 두 표본) . . . . . . . . . . . . . . . . . . . . 8

1.6 대응 표본 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.7 SPSS 출력결과(대응표본) . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1 자료입력 및 분산분석 . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 분산분석 설정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3 등분산을 가정한 경우 분산분석 . . . . . . . . . . . . . . . . . . . . . 19

2.4 등분산을 가정하지 않는 경우 분산분석 . . . . . . . . . . . . . . . . 20

2.5 이원배치 분산분석 설정 . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.6 이원배치 분산분석 출력결과 . . . . . . . . . . . . . . . . . . . . . . 23

3.1 일원배치 분산분석 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2 공분산분석 과정1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3 공분산분석 과정2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1 반복측정 분석과정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 다변량과 구형성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.3 개체내 효과와 대비 검정 . . . . . . . . . . . . . . . . . . . . . . . . 38

4.4 사후 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.5 반복측정 분석과정(2원배치) . . . . . . . . . . . . . . . . . . . . . . 41

4.6 다변량과 구형성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.7 개체내 효과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.8 사후검정 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

v

5.1 회귀분석 설정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.2 회귀분석 – 저장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.3 회귀분석 분석결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6.1 적합도 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.2 독립성 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.3 승산비 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.4 승산비 검정(2×2×k) . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

제 1 장

여러 가지 평균 비교

모집단의 평균 비교 검정은 단일 표본에 대한 평균 검정, 독립인 표본에 대한 평균

차이검정, 대응표본평균검정등이있으며이 장에서는이검정의사용방법을소

개한다. 우선 검정 방법을 알아보기 전에 검정에 사용하는 용어에 대하여 알아보

자. 통계적가설검정계산에사용하는몇 가지용어를소개하고그림 1.1에 나타내

었다.

귀무가설 (null hypothesis;H0) : 이미 전에 연구자가 입증한 가설

대립가설 (alternative hypothesis;H1) : 연구자가 연구결과 입증하려는 가설로

귀무가설이 아닌 가설

유의수준 (significance level;α) : 연구자가귀무가설이옳은데도잘못하여귀무가설을

기각하는 오류의 최대 허용한계의 확률로 많은 경우 0.05로 설정

기각역 (rejection region for H0) : 유의수준에서 귀무가설을 기각하는 영역

유의확률 (probability value) : 데이터에서구한검정통계량이귀무가설이옳은

데도 잘못하여 귀무가설을 기각하는 오류의 확률

검정통계량 (test statistic) : 귀무가설의 기각, 채택여부 판정할 때 사용하는 통

계량으로 관측한 데이터에서 계산

제 1종의 오류 (type I error; α) : 유의수준과 동일한 의미

제 2종의 오류 (type II error;β) : 귀무가설이 옳지 않을 때 귀무가설을 기각하

지 않는 오류의 확률

1

검정력 (power;1− β) : 귀무가설이옳지않을때귀무가설을기각하는오류의확

H0 : µ = µ0 H1 : µ = µa

µ0 µa

αβ

c = µ0 + zασ√n= µa − zβ

σ√n

rejection region for H0acceptance region for H0

그림 1.1: H1 : µ > µ0일 때

1.1. 단일표본 검정

이 검정은 한 집단의 평균값이 특정한 값이라고 할 수 있는지 검정하는 방법이다.

① 귀무가설 H0 : µ = µ0 (의미 : 어느 집단의 평균은 µ0이다.)이며, 예전에 조사

한 결과 알려진 평균이다.

대립가설은 다음 세 가지 중 하나를 연구자가 정한다.

• 대립가설 H1 : µ > µ0(의미 : 어느 집단의 평균은 µ0보다 크다.) ← 단측

검정

• 대립가설 H1 : µ < µ0(의미 : 어느 집단의 평균은 µ0보다 작다.) ← 단측

검정

• 대립가설 H1 : µ 6= µ0(의미 : 어느 집단의 평균은 µ0이 아니다. 즉 µ0보

다 크거나 µ0보다 작다)← 양측검정

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

예를들어연구자가유의수준을 α = 0.05로설정하고 SPSS출력결과유의확률(양

측)이 0.07이라면

2

• 단측검정인 경우는 유의확률이 0.035이므로 귀무가설을 기각하고

• 양측검정인 경우는 유의확률이 0.07이므로 귀무가설을 기각하지 못한

다.

사례 : 1.1. (단일표본 검정) 어느도시의남자중학생평균키가 5년전에 159cm으

로 알려져 있다고 하자. 현재 중학생의 평균 키와 같은지 알아보려고 30명의 중학

생의 키를 조사하였다. 5년전과 현재 중학생의 키의 평균이 동일한지 검정과정을

알아보자.

귀무가설 H0 : µ = 159 (의미 : 어느 도시의 중학생 평균키는 159cm이다.)이고

대립가설은 다음 세 가지 중 하나를 연구자가 정한다.

• 대립가설 H1 : µ > 159(의미 : 어느 도시 남자 중학생의 평균키는 159cm보다

크다.)

• 대립가설 H1 : µ < 159(의미 : 어느 도시 남자 중학생의 평균키는 159cm보다

작다.)

• 대립가설 H1 : µ 6= 159(의미 :어느도시남자중학생의평균키는 159cm가 아

니다. 즉 159cm보다 크거나 159cm보다 작다)

여기서 대립가설의 설정은 H1 : µ > 159라고 하자. 그러면 검정과정은 다음과 같

다.

① 가설 설정

귀무가설 H0 : µ = 159 (의미 : 어느 도시의 중학생 평균키는 159cm이다.)이

대립가설 H1 : µ > 159(의미 : 어느 도시 남자 중학생의 평균키는 159cm보다

크다.)

② SPSS 설정(그림 1.2) 및 출력결과(그림 1.3)

SPSS에서 단일표본 검정에 대한 자료입력은 데이터 보기 시트에서 한 열에

모든값을입력한다.단일표본검정은분석→평균비교→일표본 T 검정메

뉴를 클릭하여 그림 1.2 창에 여러 가지 설정한 후 분석을 실행한다. 이 창에

설정값으로

• 검정변수에는 검정에 사용할 변수를 추가하고,

• 검정값에는 귀무가설의 설정값을 입력한 후

3

그림 1.2: 단일표본 검정

그림 1.3: SPSS 출력결과(단일표본)

• 확인 버튼을 누르면 분석이 완료된다.

③ 결론 :

그림 1.3에서양쪽유의확률이 0.282이므로단측유의확률은 0.141이며유의수준

α = 0.05에서 귀무가설을 기각할 수 없다.

1.2. 독립인 두 표본 검정

이 검정법은 독립인 두 집단의 평균이 같다고 할 수 있는지 알아보는 방법이다. 먼

저 두 집단이 분산이 같은지 다른지에 따라 통계량 계산이 다르므로 두 집단의 분

산이같은지동일성검정을한다(등분산성검정).등분산성에대한검정은 SPSS출

4

력결과에서 확인할 수 있으며, 검정과정은 다음과 같다.

① 가설설정(Levene 검정)

귀무가설 H0 : σ21 = σ2

2 (의미 : 두 집단의 분산은 같다.)

대립가설 H1 : σ21 6= σ2

2(의미 : 두 집단의 분산은 같지 않다.)

② SPSS의 출력결과에서 Levene 등분산 검정의 유의확률을 확인한다.

③ 등분산성에 대한 검정 결과 해석 및 평균 비교 방법 선택

• 유의확률이 0.05보다 작으면 두 집단의 분산은 서로 다르다고 할 수

있으며 두 집단의 평균을 비교 할 때 두 집단의 분산이 다른 경우의

유의확률로 검정한다.

• 유의확률이 0.05보다 크면 두 집단의 분산은 서로 같고 할 수 있으며 두

집단의 평균을 비교 할 때 두 집단의 분산이 같은 경우의 유의확률로 검

정한다.

두 집단의 평균비교 과정은 다음과 같다.

① 귀무가설 H0 : µ1 − µ2 = 0 (의미 : 두 집단의 평균차이는 0이다.)

대립가설은 다음 세 가지 중 하나를 연구자가 정한다.

• 대립가설 H1 : µ1−µ2 > 0(의미 : 두 집단의 평균차이는 0보다 크다.) ←

단측검정

• 대립가설 H1 : µ1−µ2 < 0(의미 : 두 집단의 평균차이는 0보다 작다.) ←

단측검정

• 대립가설 H1 : µ1 − µ2 6= 0(의미 : 두 집단의 평균차이는 0이 아니다. 즉

두 집단의 평균차이는 0보다 크거나 0보다 작다)← 양측검정

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

예를들어연구자가유의수준을 α = 0.05로설정하고 SPSS출력결과유의확률(양

측)이 0.07이라면

• 단측검정인 경우는 유의확률이 0.035이므로 귀무가설을 기각하고

• 양측검정인 경우는 유의확률이 0.07이므로 귀무가설을 기각하지 못환

다.

5

• 대립가설이 H1 : µ1 − µ2 > 0일 때 귀무가설을 기각하므로 통계적으로

두 젖소 집단의 우유 생산량 평균 차는 0보다 크다고 할 수 있고,

• 대립가설이 H1 : µ1 − µ2 6= 0일 때 귀무가설을 기각하지 못하므로 통계

적으로 두 젖소 집단의 우유 생산량 평균 차는 0라고 할 수 있다.

사례 : 1.2. (독립인 두 표본 검정) 두 종류의 사료가 젖소의 우유생산량에 차이

가 있는지 알아보기 위하여 16 마리의 젖소를 임의로 두 집단으로 나눈 후 8 마리

에는 사료 A를 다른 8 마리는 사료 B를 먹이고 우유생산량을 조사하였다. 사료 A

를 먹은 소의 우유 생산량과 사료 B를 먹은 소의 우유 생산량이 차이가 있다고 할

수 있는가?

SPSS는 등분산성 검정의 한 종류로 Levene 등분산성 검정 방법을 사용한다.

Levene 검정결과가

• 두 집단의 분산이 같다면 그림 1.5의 등분산이 가정됨에서 평균의 동일성에

대한 검정의 유의확률을 사용하고

• 두 집단의 분산이 같지 않다면 그림 1.5의 등분산이 가정되지 않음에서

평균의 동일성에 대한 검정의 유의확률을 사용한다.

두 종류의 젖소의 우유 생산량 자료로 유의수준 α = 0.05에서 가설검정하자.

귀무가설 H0 : µ1 − µ2 = 0 (의미 : 두 젖소 집단의 우유 생산량 평균 차는 0이

다.)이고

대립가설은 다음 세 가지 중 하나를 연구자가 정한다.

• 대립가설 H1 : µ1 − µ2 > 0(의미 : 두 젖소 집단의 우유 생산량 평균 차는 0보

다 크다.)

• 대립가설 H1 : µ1 − µ2 < 0(의미 : 두 젖소 집단의 우유 생산량 평균 차는 0보

다 작다.)

• 대립가설 H1 : µ1 − µ2 6= 0(의미 : 두 젖소 집단의 우유 생산량 평균 차는 0이

아니다. 즉 0보다 크거나 0보다 작다)

여기서 대립가설의 설정은 H1 : µ1 − µ2 6= 0일 때 다음과 같은 검정과정을 진행하

자.

6

(a) 독립인 두 표본 자료입력

(b) 독립인 두 표본 설정창 (c) 독립인 두 표본 집단설정

그림 1.4: 독립인 두 표본 검정

①–1 두 집단의 분산의 동일성에 대한 가설 설정

귀무가설 H0 : σ21 = σ2

2 (의미 : 두 집단의 분산은 같다.)

대립가설 H1 : σ21 6= σ2

2(의미 : 두 집단의 분산은 같지 않다.)

7

그림 1.5: SPSS 출력결과(독립인 두 표본)

출력 결과 그림 1.5에서 Levene 등분산 검정의유의확률이 0.914이므로 두 집

단의분산은 같다고 할 수 있다. 따라서등분산을 가정하고 두 집단의평균비

교에 대한 검정을 한다.

①–2 두 집단의 평균차에 대한 가설 설정

귀무가설 H0 : µ1−µ2 = 0 (의미 : 두젖소 집단의 우유 생산량평균 차는 0이

다.)

대립가설 H1 : µ1−µ2 6= 0 (의미 : 두젖소 집단의 우유 생산량평균 차는 0이

아니다. 즉 0보다 크거나 0보다 작다)

② SPSS 설정(그림 1.4) 및 출력결과(그림 1.5)

SPSS에서 자료분석하기 전 데이터의 입력에 대하여 알아보자. 데이터를 입

력할 때

• 한 열에는 분석에 사용할 종속변수인 관측값을 입력하고,

• 다른 한 열에는 두 집단을 구분하는 집단변수의 구분값을

입력한다(그림 1.4(a)). 데이터가 올바르게 입력되었다면 분석을 실행하자.

SPSS에서독립인 두표본검정은 분석→ 평균비교→ 독립표본 T 검정메뉴

를 클릭한다(그림 1.4(b)). 이 창의 설정값은

• 검정변수에는 검정에 사용할 종속 변수를 추가하고,

• 집단변수에는 두 집단을 구분하는 변수를 추가하며

8

• 집단정의 버튼을 누른 후 집단 정의에 사용한 각 집단의 구분값을 입력

하고(그림 1.4(c))

• 확인 버튼을 누르면 분석이 완료된다.

③ 결론 :

그림 1.5에서양쪽유의확률이 0.333이므로유의수준 α = 0.05에서귀무가설을

기각할 수 없다. 즉 두 종류 사료로 먹인 소의 우유 생산량은 통계적으로 차

이가 없다고 할 수 있다.

1.3. 대응표본 검정

두 집단의 자료가 쌍으로 된 경우(한 개체에서 두 번 자료를 관측하거나 동일한 종

류의 기계 두 대에서 자료를 관측하는 경우)로 쌍으로 된 두 집단 차이의 평균을

δ라고 할 때이값에 대하여검정하는방법이다.만일두 집단의차이가없다면 δ는

0이 된다.

① 귀무가설 H0 : δ = δ0 (의미 : 쌍으로 구성된 두 집단 차이의 평균은 δ0이다.)

대립가설은 다음 세 가지 중 하나를 연구자가 정한다.

• 대립가설 H1 : δ > δ0(의미 : 쌍으로 구성된 두 집단 차이의 평균은 0보

다 크다.) ← 단측검정

• 대립가설 H1 : δ < δ0(의미 : 쌍으로 구성된 두 집단 차이의 평균은 0보

다 작다.) ← 단측검정

• 대립가설 H1 : δ 6= δ0(의미 : 쌍으로 구성된 두 집단 차이의 평균은 0이

아니다. ← 양측검정 즉 쌍으로 구성된 두 집단 차이의 평균은 0보다 크

거나 0보다 작다)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

예를들어연구자가유의수준을 α = 0.05로설정하고 SPSS출력결과유의확률(양

측)이 0.07이라면

• 단측검정인 경우는 유의확률이 0.035이므로 귀무가설을 기각하고

• 양측검정인 경우는 유의확률이 0.07이므로 귀무가설을 기각하지 못환

다.

9

(a) 대응 표본 자료입력 (b) 대응 표본 설정창

그림 1.6: 대응 표본 검정

그림 1.7: SPSS 출력결과(대응표본)

• 대립가설이 H1 : δ > 0라면 귀무가설을 기각하므로 통계적으로 두 집단

의 평균 차이는 0보다 크다고 할 수 있고,

• 대립가설이 H1 : δ 6= 0라면귀무가설을기각하지못하므로두집단의평

균 차이는 0라고 할 수 있다.

사례 : 1.3. (대응표본 검정) 첨가제를사용하는차량과사용하지않는차량의주

행거리가 같은지 검정하려고 다섯 종류의 동일한 새차 2대를 추출하여 임의로 첨

가제를사용한경우와첨가제를사용하지않은경우주행거리를보고두경우가차

이가 있는지 알아보자.

10

귀무가설 H0 : δ = 0 (의미 : 첨가제와 휘발유를 주유한 차량의 주행거리는 같

다.)이고

대립가설은 다음 세 가지 중 하나를 연구자가 정한다.

• 대립가설 H1 : δ > 0(의미 : 첨가제와 휘발유를 주유한 차량의 주행거리 차이

의 평균은 0보다 크다.)

• 대립가설 H1 : δ < 0(의미 : 첨가제와 휘발유를 주유한 차량의 주행거리 차이

의 평균은 0보다 작다.)

• 대립가설 H1 : δ 6= 0(의미 : 첨가제와 휘발유를 주유한 차량의 주행거리 차이

의 평균은 0이 아니다. 즉 주행거리 차이의 평균은 0보다 크거나 0보다 작다)

① 가설 설정

귀무가설 H0 : δ = 0 (의미 : 첨가제 주입 차량과 주입하지 않은 차량의 주행

거리 차이의 평균은 0이다.)이고

대립가설 H1 : δ 6=(의미 : 첨가제 주입 차량과 주입하지 않은 차량의 주행거

리 차이의 평균은 0이 아니다.)

② SPSS 설정(그림 1.6) 및 출력결과(그림 1.7)

SPSS에서 자료분석하기 전 데이터의 입력에 대하여 알아보자. 데이터를 입

력할 때 한 열에는 반복측정한 변수값을 입력하고, 나머지 열에 반복측정한

또 다른 변수값을 입력한다((그림 1.6(b)). SPSS에서 대응표본 검정은 분석

→ 평균비교 → 대응표본 T 검정 메뉴를 클릭한다(그림 1.6(b)). 이 창에

• 대응변수에 검정에 사용할 반복측정한 두 변수를 추가하고

• 확인 버튼을 누르면 분석이 완료된다.

③ 결론 :

그림 1.7에서양쪽유의확률이 0.032이므로유의수준 α = 0.05에서귀무가설을

기각한다.첨가제주입한차량과주입하지않은차량의주행거리는통계적으

로 같지 않다고 할 수 있다.

11

제 2 장

분산분석(ANalysis Of VAriance)

모수적 검정에서 한 집단이나 두 집단의 평균 비교는 t–검정을 사용하고 셋 이상

집단의 평균 비교는 F–검정을 사용한다. 이 장에서는 세 집단 평균비교인 분산분

석(ANOVA)에 대하여 알아보자.

2.1. one–way ANOVA

한 요인(factor)에 대하여 셋 이상 집단의 평균 비교에 대한 통계학적 모델을 일원

배치 분산분석(one–way ANalysis Of VAriance; one–way ANOVA)이라고 하며

yij = µ+ τi + ǫij, µ̂ = y, τ̂i = yi. − y (2.1)

이며 다음과 같은 조건을 만족해야 한다.

• ǫij 서로 독립이다.

• ǫij는 N(0, σ2)인 정규분포를 따른다.

• 각 처리집단의 분산은 모두 같다.

만일 위의 조건에서 첫 번째, 두 번째 조건은 만족하고 세 번째 조건에서 처리집단

간 분산이 같은지 같지 않은지에 따라 분석방법을 다르다. 따라서 셋 이상 집단의

평균을비교하기전에모든집단의분산이모두같은지등분산성에대한검정을해

야 한다.

• 가설 설정

귀무가설 H0 : σ21 = σ2

2 = · · · = σ2k (의미 : k 집단의 분산은 같다.)

대립가설 H1 : not H0 (의미 : 적어도 한 집단은 분산은 같지 않다.)

13

• 등분산성검정은 17페이지그림 2.2(c)에서분산 동질성 검정을선택하고분

석하면 19 페이지 그림 2.3(a)에서 분산의 동질성 검정에 대한 결과를 확인할

수 있다.

• 등분산성 검정결과

– 유의확률이 0.05보다 크면 모든 집단의 분산이 같다고 할 수 있고 분산

분석으로 평균을 비교한다(그림 2.3, 19 페이지).

– 유의확률이 0.05보다 작으면 셋 이상의 집단 중 분산은 같지 않은 집단

이 하나 이상 존재하며 이런 경우는 Welch 검정으로 평균을 비교한다.

이 검정은 17 페이지 그림 2.2(c)에서 Welch 선택하고 분석을 실행하면

20 페이지 그림 2.4(a)의 출력결과를 확인할 수 있다.

2.1.1. 평균비교

① 귀무가설 H0 : µ1 = µ2 = ... = µk (의미 : k개 집단 평균은 모두 같다.)

대립가설 H1: not H0 (의미 : k개 집단에서 평균이 다른 집단이 적어도 한 개

이상이다.)

사례 : 2.1. (분산분석) 레코드 테이프의 코팅처리가 음질의 재생에 효과가

있는지알아보기위하여코팅처리가다른네종류의테이프에대하여잡음을

조사하였다면

귀무가설 H0 : µ1 = µ2 = µ3 = µ4 (의미 : 네 종류 테이프의 잡음소리의 평균

은 모두 같다.)이고

대립가설 H0: not H0 (의미 : 4 종류 테이프에서 잡음의 평균이 다른 테이프

가 적어도 한 개 이상 있다.)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

SPSS에서 자료분석하기 전 데이터의 입력에 대하여 알아보자. 데이터를 입

력할 때

• 한 열에는 분석에 사용할 종속변수인 관측값을 입력하고,

• 다른 한 열에는 k 집단을 구분하는 집단변수의 구분값을

입력한다(그림 2.1(a)). 데이터가 올바르게 입력되었다면 분석을 실행하자.

SPSS에서독립인 두표본 검정은 분석 → 평균비교 → 일원배치 분산분석 메

뉴를 클릭한다(그림 2.1(b)). 이 창에서

14

(a) 분산분석 자료입력 (b) 분산분석 화면

그림 2.1: 자료입력 및 분산분석

• 종속변수에는 검정에 사용할 종속 변수를 추가하고,

• 요인에는 k 집단을 구분하는 변수를 추가하고(그림 2.1(b))

• 확인 버튼을 누르면 분산분석표가 출력된다(그림 2.3(a), 19 페이지).

분산분석에서는 기본값으로 각 그룹마다 기술통계량을 보여주지 않기 때문

에 17 페이지 그림 2.2(c)에서 기술통계를 선택하고 분석하면 출력결과에 기

초통계량을 확인할 수 있다.

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

연구자가유의수준을 α = 0.05로설정하고 SPSS출력결과유의확률이 0.03이

라면

• 유의확률이 0.03이므로 귀무가설을 기각하므로 통계적으로 네 개의 레

코드 중 적어도 한 집단의 평균은 다르다고 할 수 있다

2.1.2. 다중비교(multiple comparison)

귀무가설 H0 : µi = µ2 = ... = µk를 기각한 경우 적어도 한 집단의 평균이 다르므

로 어떤 집단의 평균이 다르다고 할 수 있는지 알아보자. 집단 수가 k인 경우 두 집

단씩 묶어서 평균차를 비교하는 개수는

(

k

2

)

이다. 비교 방법은

• 등분산을 가정할 때 LSD, Duncan, Tukey, SNK 등 14개와

15

• 등분산을 가정하지 않을 때 Tamhane, Dunnett 등 4개

모두 18개를 제공한다. 다중비교의 분석과정은

① 귀무가설 H0 : |µi − µj| = 0 for all i, j(의미 : 두 집단 평균은 같다.)

대립가설 H1 : |µi − µj| 6= 0 (의미 : 두 집단의 평균은 같지 않다.)

사례 : 2.2. (다중비교) 귀무가설 H0 : µ1 = µ2 = µ3 = µ4을 기각하였을 때

어떤 집단의 평균이 다르다고 할 수 있는지 다중비교를 하려면

(

4

2

)

= 6

개 쌍의 평균차를 비교한다.

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

사례 : 2.3. (다중비교 결과(LSD)) 연구자가 유의수준을 α = 0.05로 설정

하였을 때, 4 개 집단에서 2 개 집단씩 비교하는 개수는 6개며 SPSS 결과가

• H0 : |µ1 − µ2| = 0 일 때 유의확률이 0.004면 귀무가설을 기각하며 통계

적으로 두 집단의 평균은 같지 않다.

• H0 : |µ1 − µ3| = 0 일 때 유의확률이 0.008이면 귀무가설을 기각하며 통

계적으로 두 집단의 평균은 같지 않다.

• H0 : |µ1 − µ4| = 0 일 때 유의확률이 0.044이면 귀무가설을 기각하며 통

계적으로 두 집단의 평균은 같지 않다.

• H0 : |µ2 − µ3| = 0 일 때 유의확률이 0.494이면 귀무가설을 기각 못하며

통계적으로 두 집단의 평균은 같다.

• H0 : |µ2−µ4| = 0 일 때 유의확률이 0.192면 귀무가설을 기각 못하며 통

계적으로 두 집단의 평균은 같다.

• H0 : |µ3−µ4| = 0 일 때 유의확률이 0.442면 귀무가설을 기각 못하며 통

계적으로 두 집단의 평균은 같다.

16

(a) 다중비교 (b) 대비 (c) 옵션

그림 2.2: 분산분석 설정

2.1.3. 대비(contrast)

대비는 사후 검정 결과 통계적으로 다른 집단이 존재한 경우 각 변수를 두 개의 그

룹으로 나누어 두 그룹의 평균이 차이가 있다고 할 수 있는지 검정하는 것이다.

① 귀무가설 H0 : c1µ1 + c2µ2 + · · · + ckµk = 0(의미 : 두 그룹의 평균은 같다.)

대립가설 H0 : c1µ1 + c2µ2 + · · ·+ ckµk 6= 0 (의미 : 두 그룹의 평균은 같지 않

다.)

k 개 그룹에 대한 대비는 C = c1µ1 + c2µ2 + · · · + ckµk로 정의하며 상수 c는∑k

i=1 ci = 0이 되도록 설정한다.

사례 : 2.4. (대비) 그림 2.2(b)에 계수의 합이 0이 되도록 설정하였고 계수

가 음수인 첫 번째 변수를 한 그룹, 계수가 양수인 나머지 세 개의 변수를 다

른 한 그룹으로 나눠 두 그룹을 비교하였으며 그림 2.3(b)(19 페이지)에 그

결과가 있다. 다시 말하자면 그룹을 µ1과 µ2, µ3, µ4로 하였을 때 귀무가설은

H0 : −3µ1 + µ2 + µ3 + µ4 = 0으로 각 상수의 합이 0이 되도록 한다.

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

사례 : 2.5. (대비 결과) 연구자가 유의수준을 α = 0.05로 설정하였을 때

유의확률이 0.049라면 귀무가설을 기각하므로 집단 1과 집단 2, 집단 3, 집단

4개를 묶은 그룹의 평균은 통계적으로 다르다고 할 수 있다.

17

사례 : 2.6. (등분산인 경우 분산분석) 레코드테이프의질을향상시키려고네종

류 A, B, C, D의 코팅처리에 대하여 음질의 재생에 얼마나 효과가 있는지를 비교

하려고 한다. 데이터는 레코드의 잡음 소리를 기록한 것이다.

①–1 네 집단의 분산의 동일성에 대한 가설 설정

귀무가설 H0 : σ21 = σ2

2 = σ23 = σ2

4 (의미 : 네 집단의 분산은 같다.)

대립가설 H1 : not H0 (의미 : 적어도 한 집단은 분산은 같지 않다.)

결과

그림 2.3(a)에서 Levene등분산검정의유의확률이 0.101이므로유의수준 α =

0.05에서 귀무가설을 기각할 수 없으므로 네 집단의 분산은 모두 같다고 할

수 있다. 따라서 등분산을 가정하고 네 집단의 평균비교에 대한 검정을 한다.

①–2 네 집단의 평균차에 대한 가설 설정

귀무가설 H0 : µ1 = µ2 = µ3 = µ4 (의미 : 네 종류 레코드의음질 처리에대한

잡음소리 평균은 모두 같다.)

대립가설 H1 : not H0(의미 : 적어도 한 종류의 레코드는 평균이 다르다.)

결과

그림 2.3(a)에서 분산분석결과 유의확률이 0.018이므로 유의수준 α = 0.05에

서 귀무가설을 기각한다. 따라서 적어도 한 레코드의 평균이 다르다는 것을

알 수 있다.

② 사후검정 레코드의 잡음에 대한 평균이 적어도 한 집단이 다르므로 네 개의

집단을두 집단씩 묶는 개수가

(

4

2

)

= 6개이므로 이것들에 대하여두 집단

의 평균비교를 한다.

귀무가설 H0 : |µi − µj | = 0 for all i, j when i 6= j (의미 : 두 집단의 평균은

같다)

대립가설 H1 : not H0(의미 : 두 집단의 평균은 같지 않다.)

그림 2.3(b)에서 사후검정결과 A레코드와 B, C, D레코드의잡음에대한평

균이 같은 집단을 묶을 수 있다. 그림 2.4(b)에서 적용한 검정방법은 등분산

을 가정한 경우 Duncan을 사용하였다.

③ 대비

레코드 A와레코드 B, C, D그룹으로나눈후두그룹의평균이같다고할수

있는지 검정한다.

귀무가설 H0 : 3µ1 = µ2 + µ3 + µ4 (의미 : 두 그룹의 평균은 모두 같다)

18

대립가설 H1 : not H0(의미 : 두 그룹의 평균은 다르다.)

그림 2.3(c)에서 양쪽 유의확률이 0.003(등분산 가정) 이므로 유의수준 α =

0.05에서 귀무가설을 기각한다. 따라서 레코드 A 그룹과 레코드 B, C, D 그

룹의 평균은 같지 않다.

(a) 등분산성 검정 및 분산분석 (b) 사후검정

(c) 대비

그림 2.3: 등분산을 가정한 경우 분산분석

사례 : 2.7. (등분산이 아닌 경우 분산분석) 네종류의비료종류에대한수확량의

평균을 비교하려고 한다.

19

(a) 등분산성 검정 및 분산분석 (b) 사후검정

(c) 대비

그림 2.4: 등분산을 가정하지 않는 경우 분산분석

①–1 네 집단의 분산의 동일성에 대한 가설 설정

귀무가설 H0 : σ21 = σ2

2 = σ23 = σ2

4 (의미 : 네 집단의 분산은 같다.)

대립가설 H1 : not H0 (의미 : 적어도 한 집단은 분산은 같지 않다.)

결과

그림 2.4(a)에서 Levene등분산검정의유의확률이 0.013이므로유의수준 α =

0.05에서귀무가설을기각하므로적어도한집단의분산은다르다고할수있

다. 따라서 등분산을 가정하지 않고 네 집단의 평균비교에 대한 검정을 한다.

①–2 네 집단의 평균차에 대한 가설 설정

귀무가설 H0 : µ1 = µ2 = µ3 = µ4 (의미 : 네 종류 비료로경작한 작물의수확

량의 평균은 모두 같다.)

20

대립가설 H1 : not H0(의미 : 적어도 한 종류의 수확량의 평균은 다르다.)

결과

그림 2.4(a)에서 Welch 검정 결과 유의확률이 0.000이하이므로 유의수준 α =

0.05에서귀무가설을기각한다.따라서적어도한비료에대한수확량평균이

다르다는 것을 알 수 있다.

② 사후검정 농작물 수확량에 대한 평균이 적어도 한 집단이 다르므로 네 개의

집단을두 집단씩 묶는 개수가

(

4

2

)

= 6개이므로 이것들에 대하여두 집단

의 평균비교를 한다.

귀무가설 H0 : |µi − µj | = 0 for all i, j when i 6= j (의미 : 두 집단의 평균은

같다)

대립가설 H1 : not H0(의미 : 두 집단의 평균은 같지 않다.)

그림 2.4(b)에서 사후검정 결과 비료종류 1, 4와 비료종류 3, 4는 서로 평균이

다르다고할 수 있다. 그림 2.4(b)에서 적용한 검정방법은 등분산을가정하지

않은 경우 Dunnect의 T3을 사용하였다.

③ 대비

비료 1,4 와 비료 2,3 그룹으로 나눈 후 두 그룹의 평균이 같다고 할 수 있는

지 검정한다.

귀무가설 H0 : µ1 + µ4 = µ2 + µ3 (의미 : 두 그룹의 평균은 모두 같다)

대립가설 H1 : not H0(의미 : 두 그룹의 평균은 다르다.)

그림 2.4(c)에서 양쪽 유의확률이 0.000이하(등분산 가정하지 않음) 이므로

유의수준 α = 0.05에서 귀무가설을 기각한다. 따라서 비료 1, 4 그룹과 비료

2, 3 그룹의 평균은 같지 않다.

2.2. two–way ANOVA

두요인(factor)의 각요인의평균비교와교호작용(interaction)을 검정하는것을이

원배치 분산분석(two–way ANalysis Of VAriance; two–way ANOVA)이라고 한다.

교호작용은 두 변수의 곱에 대한 검정으로 유의확률이 의미있는 결과라면 두 변수

는 서로 영향을 준다고 할 수 있으며 수학적으로는 두 변수는 서로 독립이 아니라

고 할 수 있다. 이원배치 분산분석의 통계학적 모델은 다음과 같다.

Yij = µ+ αi + βj + (αβ)ij + ǫijk

데이터가 조건에 맞는지 알아보기 위하여 오차 분산의 동일성 검정을 한다.

21

• 가설 설정

귀무가설 H0 : V (ǫ) = σ2 (의미 : 오차 분산은 σ2이다.)

대립가설 H1 : not H0 (의미 : 오차 분산은 σ2이 아니다.)

• 등분산성 검정결과 유의확률이 0.05보다 작으면 위의 모델을 사용하여 분석

할 수 없다.

(a) 변수 설정 (b) 모형 설정

(c) 사후 분석 (d) 옵션

그림 2.5: 이원배치 분산분석 설정

이원배치 분산분석은 요인의 종류가 모수 효과(fixed effect)와 변량 효과(random

effect)인 경우에 따라 계산의 차이가 있다.

• 모수 요인(fixed effect) : 인자의 수준이 고정되어 있는 경우로 그 예로는 인

종, 부모교육수준, 성별, 학년 변수 등이 있다.

22

• 변량 요인(random effect) : 인자의 수준이 임의로 된 경우로 그 예로는 수요

일과 토요일에만 자료를 얻었을 때 요일 변수, 춘천시 10개 고등학교 중 3개

학교의 학생 점수를 얻었을 때 변수 등이 변량요인이다.

이원배치 분산분석에서

• 두 요인이 모두 모수 요인인 경우

• 두 요인이 모두 변량 요인인 경우

• 한 요인은 모수 요인 한 요인은 변량 요인인 경우

자료분석자가 적절하게 분석방법을 설정한다. SPSS에서 이원배치분산분석은

(a) 분산분석표 (b) 분산의 동질성 검정

(c) 사후분석1 (d) 사후분석2

그림 2.6: 이원배치 분산분석 출력결과

1. 분석 → 일반선형모형 → 일변량 메뉴를 선택

23

2. 분석에 교호작용은 그림 2.5(a) 에서 모형 버튼을 클릭한 후 그림 2.5(b)의

요인 및 공변량에서 두 변수를 선택하고 추가 버튼을 누르면 모형에 추가된

다.

3. 사후분석은일원배치분산분석과유사하게그림 2.5(c)창에검사후검정변수에

변수를 추가한 후 사후검정 방법을 선택한다.

4. 기술통계량, 동일성 검정 등은 그림 2.5(a)에서 옵션 버튼을 클릭한 후 그림

2.5(d) 창에서 통계량이나 그림을 선택한다.

분석방법은 이원배치 분산분석 결과 두 변수간 교호작용이 있는지 우선 판단하고

그 결과에 따라 각 요인에 대한 평균이 다른지 검정한다. 만일 교호작용이 의미있

는 결과를 얻었다면 각 요인의 평균비교 결과가 유의한 결과가 나타났다고 하더라

도 두 변수가 서로 독립이 아니므로 각 요인에 대한 평균비교는 의미가 없다.

그림 2.5에 이원배치 분산분석의 출력결과를 일부분 나타내었다.

• 그림 2.6(a)에 교호작용을 포함한 분산분석결과를 보여주고 있다. 여기서 제

곱합은 Type III 이며, 분석결과 교호작용이 유의한 것으로 나타났다.

• 그림 2.6(b)에 각 그룹마다 오차분산에 대한 동질성 검정 결과로 유의확률이

0.221로 귀무가설 H0 : V (ǫ) = σ2를 기각하지 못하므로 각 요인의 집단간 오

차분산은 같다고 할 수 있다.

• 그림 2.6(c)에 유리강도 요인에 대한 Turkey, Scheffe, LSD 등 세 가지 분석에

대한 평균차, 유의확률, 신뢰구간의 정보가 출력되며, 그림 2.6(d)에 사후분

석결과에 대한 동일집단군 표시에 대한 결과를 보여준다.

24

제 3 장

공분산분석(ANCOVA; ANalysis

of COVAriance)

실험에서 얻어지는 다변량 자료들은 연속형 자료와 이산형 자료들이 혼합되어 있

는경우가대다수이다.이때성격이다른자료들을일반선형모델(generalized linear

modeling)로 분석할 경우 공분산분석(ANCOVA, ANalysis of COVAriance)이라고

한다.즉독립변수들이이산형,연속형변수이고종속변수가연속형자료인경우에

해당된다.

공분산분석은 분산분석모형

yij = µ+ τi + ǫij, µ̂ = y, τ̂i = yi. − y (3.1)

에 공변량(covariate)을 추가하면

yij = µ+ τi + β(xij − x) + ǫij (3.2)

이 되며 각 추정량들은

• µ̂ = y

• τ̂i = yi. − y − β̂(xi. − x)

• β̂ =Sxy

Sxx

이다. 이렇게 분산분석 모형에 회귀분석 모형을 추가하면 모델의 설명력이 높아지

기 때문에 오차를 줄이면서 추정의 정밀도를 높이게 된다.

공분산분석에 추가되는 연속변수 공변량은 종속변수에 영향을 주며, 종속변수

의 값과 함께 관측되지만 실험자가 그 값을 마음대로 조절하지 못하는 변수이다.

25

그러나 랜덤화 블록설계에서는 실험자가 임의로 블록요인의 수준을 조정하는 것

이 가능하였다. 따라서 공분산분석의 핵심은 종속변수의 값에 영향을 미치는 공변

량의 영향을 보정(adjust)하는데 있다.

나병환자의치료법을연구하기위하여 A, D두항생제의효과를비교하려고한

다. 실험에 참여하는 나병환자를 랜덤하게 30명을 뽑은 후 10명에게는 항생제 A,

10명에게는 항생제 D, 나머지 10명 대조군에게는 생리식염수를 투여하고 그 경과

를관찰하였다.일정기간치료한후환자의몸에서나병간균(leprosy bacilli)을측정

한결과가표 3.1에있다.이자료를일원배치분산분석(one–way ANOVA)방법으로

항생제 A 항생제 B 대조군 F

6 0 13

0 2 10

2 3 18

8 1 5

11 18 23

4 4 12

13 14 5

1 9 16

8 1 1

0 9 20

표 3.1: 나병간균 환자

분석한 결과가 그림 3.1에 있다. 그림 3.1(a)의 분산분석표에서 유의확률이 0.03으

(a) 분산분석표 (b) 그룹간 다중비교

그림 3.1: 일원배치 분산분석

로 귀무가설 “세 집단의 평균은 모두 같다”를 기각한다. 그러면 어느 집단의 평균

26

sequential sum of squares

SSR SSR(β1, β2, β3|β0)

SSR(β1|β0)

SSR(β2|β0, β1)

SSR(β3|β0, β1, β2)

SSE SSE(β0, β1, β2, β3)

표 3.2: 순차제곱합

이 다른지 그림 3.1(b)에 다중비교한 결과 유의수준 5%에서 항생제 A와 대조군 F,

항생제 D와 대조군 F의 평균이 다른 것으로 분석되었다.

표 3.4에는 표 3.1의 자료에 치료전 환자의 나병간균 자료가 추가되어 있다. 환

자의 세균수는 치료전의 세균수에 많은 영향을 줄 수 있기 때문에 치료전 세균수

를 공변량(covariate)에 포함시키는 것이 바람직할 것이다. 따라서 독립변수가 이

산형, 연속형 자료가 모두 포함되기 때문에 공분산분석을 실시하면 더 명확한 분

석이 진행될 것이다.

공분산분석에서관심있는요인의수준간효과차이에대한검정은귀무가설H0 :

τ1 = τ2 = · · · = τi = 0에 대한 가설검정으로 이것을 기각하면 요인 수준간 효과차

이가 있다고 할 수 있다. 공분산분석이나 분산분석, 회귀분석 모두 일반선형모델

이다. 일반선형모델에서 변수를 선택할 때 모델을 설명하는 제곱합으로 그 방법은

네 종류가 있다. 세 가지 변수에 대하여 일반선형모델을 설정한 후 제곱합에 대하

여 알아보자. 세 변수에 대한 일반선형모델은

Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + ǫi (3.3)

이며 이 식으로 제곱합을 알아보자.

• Type I(sequential) Sums of Squares : 순차제곱합으로부르기도 한다.추가되

는 변수에 따라 제곱합이 증가하며 추가되는 변수의 순서에 따라 제곱합이

다르다. 식 3.3의 순차제곱합은 표 3.2에 나타내었다.

• Type II Sums of Squares : 완전모형(full model)에서 변수를 제거할 때 감소

하는 제곱합이다.

• Type III(partial) Sums of Squares : 부분제곱합이다.변수가 p개일때 p−1개

의 독립변수가 이미 추가되어 있고 나머지 한 변수가 추가될 때 증가되는 제

곱합이다. 식 3.3의 부분제곱합은 표 3.3에 나타내었다.

27

partial sum of squares H0

SSR(β1|β0, β2, β3) β1 = 0

SSR(β2|β0, β1, β3) β2 = 0

SSR(β3|β0, β1, β2) β3 = 0

SSE(β0, β1, β2, β3)

표 3.3: 부분제곱합

• Type IV Sums of Squares : 결측값이 없는 경우 Type III(partial) Sums of

Squares와 같다.

일반선형모델에서특이사항으로각변동의제곱합을모두합하더라도그합이

총제곱합이 되지 않는 제곱합이 있는 것을 위에서 확인하였다. 즉 SST 6= SSR +

SSE인 제곱합의 종류가 존재한다. 공분산분석도 일반선형모델에 속하기 때문에

총 제곱합이 회귀제곱합과 오차제곱합의 합과 같지 않는 제곱합이 있다. 공분산

분석에서는 범주형 자료의 제곱합 및 오차제곱합이 연속형 자료인 공변량에 대

하여 보정되었기 때문이다. 따라서 요인간 효과가 있을 때 사후검정을 실시하는

경우 각 처리집단의 평균은 보정한 자료를 가지고 비교하게 된다. 보정된 처리평

균(yi.(adj))은

yi.(adj) = yi. − β̂(xi. − x) (3.4)

으로 정의하여 계산한다.

공분산분석을 실시하려면 다음과 같이 몇 가지 조건이 만족되어야 한다.

• 종속변수와공변량사이에는선형회귀관계가있어야한다. 공변량이회귀관

계가존재하지않다면회귀분석으로제거할수있는변동이없으므로이때는

분산분석의 결과와 별로 다른 결과가 없을 뿐만 아니라 오차의 자유도만 소

모되어 검출력이 오히려 나빠질 수 있다. 따라서 귀무가설 H0 : β = 0을 기각

해야 한다.

• 종속변수와 공변량 사이의 회귀계수가 처리집단간 동일해야 한다. 공분산분

석을올바로수행하려면기울기의동질성(homogeneity of slopes)이보장되어

야 하고 귀무가설 H0 : β1 = β2 = · · · = βt = β를 검정하여 귀무가설을 기

각한다면공분산분석의의미가줄어든다.즉각처리집단마다기울기가모두

같아야 보정된 처리효과의 평균을 사용할 수 있다. 종속변수의 각 그룹마다

기울기의 동질성 검정은 독립변수와 공변량의 교호작용이 유의성 검정으로

28

한다.교호작용이통계적으로유의하지않으면종속변수의집단마다각기울

기가 모두 같은 것을 의미한다. 따라서 교호작용이 존재하지 않으면 공분산

분석을 실시할 수 있다.

표 3.4 자료로 공분산분석을 실행해 보자. 치료후 자료 나병환자의 세균수(y)

항생제를 투여한 두 집단과 대조군 한 집단 모두 세 집단의 평균이 차이가 있는지

치료전 세균수(x)를 통제하여 분석하자.

항생제 A 항생제 B 대조군 F

치료전 치료후 치료전 치료후 치료전 치료후

11 6 6 0 16 13

8 0 6 2 13 10

5 2 7 3 11 18

14 8 8 1 9 5

19 11 18 18 21 23

6 4 8 4 16 12

10 13 19 14 12 5

6 1 8 9 12 16

11 8 5 1 7 1

3 0 15 9 12 20

표 3.4: 나병간균 환자

표 3.4 자료가 공분산분석을 실시하여도 적합한지 알아보자. 먼저 교호작용 변

수를 포함한 공분산분석을 시행한 후 출력결과를 보고 판단한다. SPSS에서 공분

산분석은

1. 분석 → 일반선형모형 → 일변량 메뉴를 선택

2. 일변량 분석창에서종속변수에치료후변수,모수요인에항생제변수,공변량에

치료전 변수를 추가(그림 3.2(a))

3. 모형 버튼 클릭 후 일변량 : 모형 창에서 사용자 정의 선택하고 항생제 변

수, 치료전 변수, 두 변수의 교호작용인 항생제*치료전을 모형에 추가하며,

제곱합의 종류와 절편을 포함시킬지 결정(그림 3.2(b))

4. 옵션 버튼 클릭 후 일변량 : 옵션 창에서 표시할 변수에 대한 통계량이나

검정방법을 선택(그림 3.2(c))

29

5. 출력결과 : 그림 3.2(d), 그림 3.2(e) – 출력결과 일부분

(a) 일변량 분석 (b) 일변량 : 모형(교호작용 추가)

(c) 일변량 : 옵션 (d) 통계량

(e) 분산분석표

그림 3.2: 공분산분석 과정1

공분산분석 출력결과를 살펴보자.

30

• 그림 3.2(e)에서 교호작용항생제*치료전변수의유의확률이 0.551로통계적

으로 유의하지 않기 때문에 독립변수 항생제 변수의 각 그룹마다 기울기가

같다고 할 수 있다. 따라서 교호작용 변수는 분석에서 제외하고 나머지 변수

들로 다시 분석한다.

참고로 교호작용 변수에 대한 검정결과 유의하였다면 독립변수의 각 그룹

별 회귀식이 서로 교차하는 것을 의미하고 유의하지 않은 것은 각 그룹별 회

귀식이 서로 평행한 것을 의미한다. 독립변수와 공변량의 교호작용에 대한

귀무가설은 H0 : (αβ)ij = 0이다.

• 그림 3.2(e)에서 공변량 치료전 변수에 대한 유의확률이 0.000으로 매우 유

의하므로 회귀계수는 0이 아니라고 할 수 있다. 공변량의 회귀계수에 대한

귀무가설은 H0 : β = 0이다.

따라서 표 3.4 자료가 공분산분석에 적합하다고 할 있다. 그러면 독립변수와 공변

량의 교호작용를 분석에서 제외하고 다음과 같이 다시 분석해보자.

1. 분석 → 일반선형모형 → 일변량 메뉴를 선택

2. 일변량 분석창에서종속변수에치료후변수,모수요인에항생제변수,공변량에

치료전 변수를 추가(그림 3.2(a))

3. 모형 버튼 클릭 후 일변량 : 모형 창에서 사용자 정의 선택하고 항생제 변

수, 치료전 변수는 모형에 추가하고, 두 변수의 교호작용인 항생제*치료전는

모형에서 제외(그림 3.3(b))

4. 옵션 버튼 클릭 후 일변량 : 옵션 창에서 표시할 변수에 대한 통계량이나

검정방법을 선택(그림 3.3(b))

5. 출력결과 : 그림 3.3(c), 그림 3.3(d), 그림 3.3(f), 그림 3.3(g), 그림 3.3(h) – 출

력결과 일부분

다시 분석한결과항생제종류에대한유의확률이 0.138(그림 3.3(c))로 항생제

종류에따라나병세균수가다르다고할만한통계적근거가없으며,회귀계수에대

한검정에서는유의확률이 0.000(그림 3.3(c))으로 계수가통계적으로매우의미가

있으므로 공분산분석에 사용하는 것이 적합하다고 판정할 수 있다.

식 3.4로 보정된 처리집단의 평균(adjusted treatment mean; yi.(adj))은

• y1.(adj) = 5.30 − (0.987)(9.30 − 10.73) = 6.715

31

(a) 일변량 : 모형 (b) 일변량 : 옵션

(c) 분산분석표 (d) 모수 추정

(e) 치료전 통계량 (f) 치료후 통계량 (g) 보정 평균

(h) 사후 분석

그림 3.3: 공분산분석 과정2

32

• y2.(adj) = 6.10 − (0.987)(10.00 − 10.73) = 6.284

• y3.(adj) = 12.30 − (0.987)(12.90 − 10.73) = 10.161

로계산된다.여기서 yi.는그림 3.3(f), β̂은그림 3.3(d)의분석결과에계산된값이다.

또한 xi.와 x는 SPSS에서분석 → 평균비교 → 일원배치분산분석 메뉴를 실행하고

요인분석에 항생제, 종속변수에 치료전을 입력한 후 옵션 버튼을 눌러 기술통계를

선택하고 실행하여 구하였으며 그 결과는 그림 3.3(e)에 있다.

항생제 별 나병환자의 세균수가 차이가 있는지 검정한결과

• 일원배치분산분석결과 항생제를 사용한 환자군과 항생제를 사용하지 않은

환자군이 차이가 있는 것으로 분석되었으나(그림 3.1(a))

• 공분산분석을실시하여공변량(치료전나병환자균)을모델에포함하여분석

한 결과 나병환자의 균 수는 통계적으로 차이가 없는 것으로 분석되었다(그

림 3.3(c)).

33

제 4 장

반복측정 분산분석(repeated

measures anova)

반복측정자료는동일한개체가통제된실험에참여하여여러번자료를관찰한것

이다. 이 자료는 변수들이 서로 독립이 아니기 때문에 일원배치에서 서로 독립적

으로 시행된 결과와 분석 방법이 약간다르다. 반복측정도 분산분석이므로 정규성,

독립성, 등분산성등몇가지가정이있다. 그중에서구형성가정에대하여알아보

자.

구형성(sphericity)이란분산분석에서분산의동일성(homogeneity of variance)과

같은 것으로 만일 구형성 가정이 위배된다면 검정력을 잃어서 F – 검정으로 분석

을 실행할 수 없다. SPSS에서구형성 검정은 Mauchly’s test를 사용하며 통제된 상

태에서 관찰한 자료이므로 각 시행에서 각 변수의 차이에 대한 분산의 동일성 검

정법이다. 구형성 검정에서

• 귀무가설 H0 : σ2y1−y2 = σ2

y1−y3 = · · · = σ2yk−1−yk

• 대립가설 H1 : not H0

로 가설을 설정할 수 있으며 각 변수의 차이에 대한 개수는 k(k − 1)/2개이다.

구형성 검정결과 유의확률이 0.05보다 작으면 구형성을 보장할 수 없으므로

이런 경우에는 자유도를 보정하여 다시 분석해야 한다. SPSS에서 자유도 보정은

epsilon(ǫ)으로 출력되며 ǫ > 0.75 인 경우는 Hyunh–Feldt correction 그 이외의 경

우는 Greenhouse–Geisser corrected value를 이용하여 검정한다.

위에서 설명한 반복측정자료에 대한 분석방법을 요약하면 다음과 같다1.

1Andy Field(2009)[1]가 제안

35

• 구형성이보장되는경우 :구형성에대한검정결과유의확률이 0.05보다 크면

반복측정자료 검정

• 구형성이 보장되지 않고 ǫ > 0.75 인 경우 : Hyunh–Feldt correction로 반복측

정자료 검정

• 구형성이 보장되지 않고 ǫ <= 0.75 인 경우 : Greenhouse–Geisser corrected

value로 반복측정자료 검정

분석 결과 귀무가설을 기각하였다면 어느 집단 차이가 유의한지 사후검정으로

알아본다. 만일 귀무가설을 기각하지 못한 상태에서 사후검정을 시행하더라도 유

의한 집단 차이를 보이는 것들이 있을 수도 있으나 주 효과에서 기각하지 못하였

다면 결과를 무시해도 된다.

또한반복측정자료가어떤요인에대한차이가있는지검정하는방법은다변량

ANOVA로 분석할 수 있으며 다음과 같이 여러 가지 검정방법이 있다.

• Pillai’s Trace

• Wilks’ Lambda

• Hotelling’s Trace

• Roy’s Largest Root

4.1. one–way repeated measures

단일변량 반복측정 분산분석에 대하여 알아보자. 다음 자료는 22 명에게 세 가지

서로 다른 종류의 음악을 같은 순서로 들려주고 음악에 따른 표정의 미세한 변화

를 알아보기 위한 실험(Vasey and Thayer(1987))에서 얻은 자료이다. 이 실험에서

편안한 음악(1), 경쾌한 음악(2), 격렬한 음악(3)을 순서대로 들려주고 각 단계에

서 mean electromyographic(EMG) amplitude(단위: µV ; 근전도)를 왼쪽 눈섭부근

에서 측정하였다. 각각의 음악은 90초간 들려주었다. 음악 간의 차이에 대하여 알

아보자. 표 4.1를 이용하여 반복측정자료에 대한 분석을 실행해 보자. 실행과정은

1. SPSS에서 분석→일반선형모형→반복측정 메뉴를 선택2

2. 요인의 수준 수를 설정(그림 4.1(a))

2이 메뉴는 SPSS를 basic로 설치한 경우에는 없고 advanced로 설치해야 사용할 수 있다.

36

음악 1 2 3 4 5 6 7 8 9 10 11

1 143 142 109 123 276 235 208 267 183 245 324

2 368 155 167 135 216 368 175 358 193 268 507

3 345 161 356 137 232 398 207 698 631 572 556

음악 12 13 14 15 16 17 18 19 20 21 22

1 148 130 119 102 279 244 196 279 167 345 524

2 378 142 171 94 204 365 168 358 183 238 507

3 342 150 333 93 229 382 199 822 731 572 520

표 4.1: 근전도 자료

(a) 요인의 수준수 설정 (b) 설명변수 설정 (c) 사후분석

그림 4.1: 반복측정 분석과정

3. 반복측정에서 설명변수 설정(그림 4.1(b))

4. 사후분석(그림 4.1(c))

그림 4.2, 그림 4.3, 그림 4.4에 일변량 반복측정 출력결과가 있다.

• 그림 4.2에 반복측정에 대한 다변량 검정결과 유의확률이 매우 의미있는 결

과가 나왔으므로 각 변수차에 대하여 서로 다르다고 할 수 있다.

• 그림 4.2에 구형성 검정결과 유의확률이 0.002로 매우 유의하므로 구형성을

가정할 수 없다. 따라서 자유도를 보정한 Greenhouse–Geisser 또는 Huynh–

Feldt로 검정해야 한다.

37

• 그림 4.3에 엡실론이 Huynh–Feldt인 경우 0.716으로 0.75보다 작으므로 변수

차이에대한검정은 Greenhouse–Geisser로 하는것이적합하다고할수있다.

Greenhouse–Geisser에서 유의확률이 0.0009이하이므로 변수간 차이가 있다

고 할 수 있다.

• 그림 4.3에 대비에 대한 검정결과 선형모형에 대한 유의확률이 0.0009이하이

므로선형모형이라고할수있고, 2차선형모형은유의확률이 0.069로 유의하

지 않으므로 2차 선형모델을 따른다고 할 수 없다.

• 그림 4.4에 사후분석결과 1과 3, 2과 3 변수 차이가 유의한 결과를 보였으며

1과 2 변수 차이는 유의하지 않았다.

그림 4.2: 다변량과 구형성

그림 4.3: 개체내 효과와 대비 검정

38

그림 4.4: 사후 검정

4.2. two–way repeated measures

2개의 요인에 대하여 반복측정한 경우를 이원배치 반복측정(two–way repeated

measures)이라고 한다. SPSS 메뉴 사용법은 단일요인 반복측정과 동일하다. 다

음 자료는 30명에게 3가지 연령대(10, 15, 20)에 학교생활과 직업에 대한 관심도를

조사하였다. 나이는 10세, 15세, 20세로 구분하여 학교 생활 관심도와 직업 관심도

를 측정하였다.

s10 s15 s20 w10 w15 w20

5 5 3 1 3 5

5 5 3 1 3 5

4 3 1 1 2 4

4 5 4 2 2 4

3 5 4 2 3 3

3 1 2 2 2 3

2 1 1 1 3 2

2 1 1 3 5 5

1 2 1 3 5 5

1 3 1 1 2 4

5 5 3 1 2 4

5 5 3 1 2 4

39

5 4 2 2 2 3

5 4 2 2 2 3

5 5 3 2 2 3

4 5 4 1 3 4

4 5 5 1 3 3

4 5 5 1 3 1

4 3 4 1 2 1

4 3 1 1 2 3

3 4 1 1 2 3

3 4 1 1 1 3

3 4 2 2 1 4

3 4 3 2 1 4

3 5 2 2 2 5

2 3 2 2 3 5

3 2 1 2 3 5

4 3 2 1 3 5

5 5 3 1 3 4

3 4 2 1 3 4

이원배치 반복측정을 하려면 원 자료(raw data)의 변수를 이용하여 새로운 변수

를 생성하여 분석해야 한다. 그 과정은 다음과 같다. 학교생활의 수준수도 3, 직업

의 수준수도 3개이면 총 9(3×3)개의 새로운 변수가 필요하며 SPSS에서 변환 →

변수계산 메뉴에서 다음과 같은 변수를 만든다.

• 10세 학교생활 관심도, 10세 직업 관심도 = 10세 학교생활 변수 + 10세 직업

관심도 변수

• 10세 학교생활 관심도, 15세 직업 관심도 = 10세 학교생활 변수 + 15세 직업

관심도 변수

• 10세 학교생활 관심도, 20세 직업 관심도 = 10세 학교생활 변수 + 20세 직업

관심도 변수

• 15세 학교생활 관심도, 10세 직업 관심도 = 15세 학교생활 변수 + 10세 직업

관심도 변수

• 15세 학교생활 관심도, 15세 직업 관심도 = 15세 학교생활 변수 + 15세 직업

관심도 변수

40

• 15세 학교생활 관심도, 20세 직업 관심도 = 15세 학교생활 변수 + 20세 직업

관심도 변수

• 20세 학교생활 관심도, 10세 직업 관심도 = 20세 학교생활 변수 + 10세 직업

관심도 변수

• 20세 학교생활 관심도, 15세 직업 관심도 = 20세 학교생활 변수 + 15세 직업

관심도 변수

• 20세 학교생활 관심도, 20세 직업 관심도 = 20세 학교생활 변수 + 20세 직업

관심도 변수

위에서 설정한 자료를 이용하여 SPSS로 이원배치 분산분석을 실시하자. 설정 과

(a) 요인의 수준수 설정 (b) 설명변수 설정

그림 4.5: 반복측정 분석과정(2원배치)

정은

1. 그림 4.5(a)에 학교생활 관심도의 수준수와 직업 관심도의 수준수를 설정하

2. 그림 4.5(b)에 2원배치 분산분석을 하기 위하여 변환한 변수 9개를 추가하며

나머지 과정은 일원배치 반복측정 분산분석과 동일하다. 출력결과는

41

그림 4.6: 다변량과 구형성

• 그림 4.6에 다변량 검정결과와 구형성에 대한 검정결과

• 그림 4.7에 두 반복측정 요인에 대한 개체내 효과의 검정결과

그림 4.7: 개체내 효과

• 그림 4.8에반복측정한두요인에대하여사후검정결과가있으며그림 4.8(a)에

school 요인에대한사후검정결과가그림 4.8(b)에 work요인에대한검정결

과가 있다.

다른 2원배치 반복측정에 대한 통계적 모델을 소개하면 한 요인은 반복측정한 요

인이고 다른 한 요인은 반복측정하지 않은 요인이다. 이런 경우에는 그림 4.5(b)에

42

(a) 사후검정(school) (b) 사후검정(work)

그림 4.8: 사후검정 결과

• 개체–내 변수에 반복측정한 변수를 추가하고

• 개체–간 변수에 반복측정하지 않은 변수를

추가한다. 2원배치 분산분석에 대한 SPSS 출력결과는

• 개체–내 변수에 대한 검정결과와

• 개체–간 변수에 대한 검정결과를

모두 확인할 수 있다. 다음 자료는 27마리 쥐의 체중을 실험시작시(wt0)부터 일주

일마다 4주간 측정하였으며 쥐를 3개의 그룹으로 나누었는데

• 첫 번째 그룹은 대조군

• 두 번째 그룹은 thiouracil을 마실 물에 첨가

• 세 번째 그룹은 thyroxin을 마실 물에 첨가하였다

이 자료는 다음과 같다.

group mouse wt0 wt1 wt2 wt3 wt4

1 1 57 86 114 139 172

1 2 60 93 123 146 177

1 3 52 77 111 144 185

1 4 49 67 100 129 164

43

1 5 56 81 104 121 151

1 6 46 70 102 131 153

1 7 51 71 94 110 141

1 8 63 91 112 130 154

1 9 49 67 90 112 140

1 10 57 82 110 139 169

2 1 61 86 109 120 129

2 2 59 80 101 111 122

2 3 53 79 100 106 133

2 4 59 88 100 111 122

2 5 51 75 101 123 140

2 6 51 75 92 100 119

2 7 56 78 95 103 108

2 8 58 69 93 114 138

2 9 46 61 78 90 107

2 10 53 72 89 104 122

3 1 59 85 121 146 181

3 2 54 71 90 110 138

3 3 56 75 108 151 189

3 4 59 85 116 146 177

3 5 57 72 97 120 144

3 6 52 76 97 116 140

3 7 52 70 105 138 171

44

제 5 장

회귀분석(regression analysis)

회귀분석은 한 개 이상의 독립변수와 한 개의 종속변수의 관계를 분석하는 방법이

다. 회귀분석모델 중 단순 선형회귀는 종속변수와 독립변수가 모두 한 개인 경우

이고 다중 선형회귀는 여러 개의 독립변수와 한 개의 종속변수인 것이다. 이 장에

서는 회귀분석 과정 및 회귀분석 모델에 대한 성능평가, 진단 등을 소개한다.

1. 모형의성능평가방법중많이알려진것으로결정계수(coefficient of determi-

nation) R2 과 수정된(adjusted coefficient of determination) R2이 있으며, 수

정된 결정계수(adj R2)를 사용하기를 권장한다. 결정계수는 0 ∼ 1 사이의 값

을 가지며 모델의 성능을 나타낸다. 만일 수정된 결정계수가 0.750이었다면

이 선형회귀모델은 자료를 75% 설명한다고 할 수 있다(설정은 그림 5.1(b),

결과는 그림 5.3에서 확인).

2. 분산분석 : 모든 변수를 분석에 사용한 경우 full 모델이라고 하고 이 때 모든

변수의 최소제곱추정치 β에 대한 가설 검정

① 귀무가설 H0 : β1 = β2 = · · · = βp = 0

대립가설 H1 : not H0(의미 : p 개 회귀계수는 적어도 1 개는 0이다.)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0)의 기

각, 채택 여부를 결정하고, 그 결과를 해석한다.

예를 들어 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과

유의확률이 0.007이라면 귀무가설을 기각하므로 계수 중 적어도 한 개

는 0이 아니라고 할 수 있다.

45

3. 계수 : 각 계수마다 별도로 유의한지 검정하는 방법(별도 설정 없으며 그림

5.3에서 확인)

① 귀무가설 H0 : β0 = 0

대립가설 H1 : β0 6= 0(상수 계수값은 0이 아니다.)

귀무가설 H0 : β1 = 0

대립가설 H1 : β1 6= 0(소득 변수의 계수값은 0이 아니다.)

귀무가설 H0 : β2 = 0

대립가설 H1 : β2 6= 0(자녀수 변수의 계수값은 0이 아니다.)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다.

③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0)의 기

각, 채택 여부를 결정하고, 그 결과를 해석한다.

예를들어연구자가유의수준을 α = 0.05로 설정하고 SPSS출력결과각

변수의 계수값에 대한 유의확률이 각각 0.069, 0.376, 0.042이라면 첫 번

째 상수와 세 번째 자녀수 변수는 귀무가설을 기각하지 못하고 두 번째

소득변수의 계수는 귀무가설을 기각할 수 있다.

4. 유의한설명변수의선택 :모든가능한회귀(all possible regression),앞으로부

터 선택(forward selection), 뒤로부터 제거(backward elimination), 단계적 회

귀(stepwise regression)이 있다.

• 모든 가능한 회귀 : p개의 독립변수 중에서 일부를 포함하는 모든 가능

한 회귀모형을 얻어서 이 중 가장 적절한 회귀모형 선택(그림 5.1(a)에

서 입력 선택)

• 앞으로부터 선택 : 가장유의한독립변수부터하나씩추가하는방법(그

림 5.1(a)에서 전진 선택)

• 뒤로부터 제거 : 모두 유의하다고 생각되는 독립변수를 모형에 추가한

다음 유의하지 않은 독립변수를 하나 씩 제거(그림 5.1(a)에서 후진 선

택)

• 단계적 회귀 : 앞으로부터 선택과 뒤로부터 제거를 번갈아 가면서 변수

를 선택(그림 5.1(a)에서 단계 선택)

5. 다중공선성(multicolinearity)은다중회귀분석에서독립변수들사이의상

관관계가높을경우회귀계수 βi의추정치분산이커쳐서추정량의밀도가떨

46

어지게 된다. 다중공선성에 대한 척도로 VIF(variance inflation factor)가 있

으며

VIFk =1

1−R2k

로계산한다. R2k은 xk를종속변수로 x1, x2, ..., xk−1, xk+1, ..., xp를종속변수로

계산한결정계수이다. VIF가 10 이상이면다중공선성을의심하고, 10미만이

면 다중공선성이 없다고 판단한다(그림 5.1(b)에서 공선성진단 선택).

6. 회귀분석에서 이상치(outlier)은 회귀모형에 적합하였을 때 지나치게 모형을

벗어나는 것을 말하고 영향치(influential data)는 회귀계수 β나 표준편차 σ

영향을 주는 것이다(그림 5.2).

• 스트던트화 잔차(studentized residual) : 이상치 판별에 사용하며

r∗i =ei

MSE(i)(1− hii)

로 MSE(i)는 MSE에서 i번째 자료를 제외하고 계산하였고, hii는 HHH =

XXX(XXX ′XXX)−1XXX ′의 대각원소이다. 이 값이 |r∗i | > tn−p−1;α/2이면 유의수준

α에서 이상치로 판별한다.

• DFFITSi(Difference in Standardized Fit)는 회귀계수와 표준편차에 영

향을 주는 자료를 판단하며

DFFITSi =xxxti(bbb− bbb(i))

hiiMSE(i)

로 계산한다. 영향력 관측치는 |DFFITSi| > 2√

p/n을 만족하는 값이다.

• 공분산비율(covariance ratio)은 표준편차에 영향을 주는 관측치를 판단

하며

COVRATIOi =|(XXX t

(i)XXX(i))−1MSE(i)|

|XXX tXXX−1) MSE|

로 계산된다. 영향력 관측치는 |COVRATIOi| > 3p/n을 만족하는 값이

다.

• DFBETASj,i(difference in betas)는 i번째 자료를 제외할 때 bj(i)와 포함

할 때 bj의 변화를 관찰하며

DFBETASi =bbbi − bbbj(i)

MSE(i)(XXX tXXX)−1jj

로 계산된다.

47

(a) 선도표 회귀모형 (b) 통계량

(c) 도표 (d) 옵션

그림 5.1: 회귀분석 설정

그림 5.2: 회귀분석 – 저장

49

(a) 전체모델 분석결과

(b) 단계선택 분석결과

그림 5.3: 회귀분석 분석결과

50

제 6 장

범주형자료분석

자료의 종류가 몇 개의 범주로 나누어 진 것을 범주형 자료라고 부른다. 범주형 자

료에는

• 명목형 자료(nominal data) : 범주에 가중치가 없는 자료(예 : 남자, 여자; 강

원도, 경기도, 충청도 등)

• 순위형 자료(ordinal data) : 범주에 가중치가 있는 자료(예 : 상류층, 중류층,

하류층; 1급, 2급, 3급 등)

이 있으며, 자료의 형태에 따라 분석방법이 다른 것들도 있다.

6.1. 적합도 검정(goodness–of–fit test)

이 검정법은 통계적 모델에 자료가 적합한지 Pearson χ2 검정한다. 이 경우 각 셀

의 값, 즉 각 해당 범주의 값이 5이상되어야 근사확률이 정확한 확률에 근접하며

그렇지 않은 경우에는 유의확률에 대한 보장이 어렵다.

① 귀무가설 H0: goodness of fit of a probability model (의미 : k개 범주의 비율

은 p1 = p10, p2 = p20, ..., pk = pk0이다.)

대립가설 H1 : not H0(의미 : k개 범주의 비율은 p1 = p10, p2 = p20, ..., pk =

pk0가 아니다.)

사례 : 6.1. (적합도 검정) 어떤 나무의 자가수정 결과로 나올 수 있는 유전

형태가 세 종류일 때 생물학에서 유전적 비율이 1 : 2 : 1로 알려져 있을 때

100 개의 나무에 대하여 적합도 검정을 실시해 보자.

51

귀무가설 H0 : p1 = 0.25 : p2 = 0.5 : p3 = 0.25 (의미 : 나무의 유전적 비율은

1:2:1)이고

대립가설은 H1 : not H0(나무의 유전적 비율은 1:2:1 이 아니다.)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림 6.1).

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

사례 : 6.2. (적합도 검정 결과) 연구자가 유의수준을 α = 0.05로 설정하고

SPSS 출력결과 유의확률이 0.27이라면

• 유의확률이 0.27이므로 귀무가설을 기각 못하므로 나무의 자가수정 비

율은 통계적으로 1:2:1이라고 할 수 있다.

6.2. 독립성 검정

독립성 검정(independence test)은 두 집단이 서로 독립인지 검정한다.

① 귀무가설 H0 : P [i, j] = P [i] × P [j] for all i, j (의미 : 두 변수는 서로 독립이

다.)

대립가설 H1 : not H0(의미 : 두 변수는 서로 독립이 아니다.)

사례 : 6.3. (독립성 검정) 텔레비젼에방송되는오락물에대한사람들의의

견이성별과관련있는지알아보려고 1250명을임의추출하여성별(남성,여성)

과 오락물 방영(너무많다, 적당하다, 너무 적다)에 대한 의견을 조사하였다.

성별에 따른 오락불 방영에 의견은 서로 연관성이 있다고 할 수 있는가?

귀무가설 H0 : P [i, j] = P [i] × P [j] for i = 1, 2j = 1, 2, 3 (의미 : 성별에 따라

오락물 방영에 대한 의견은 서로 관련없다.)

대립가설은 H1 : not H0(성별에 따라 오락물 방영에 대한 의견은 서로 관련

있다.)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림 6.2).

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

52

(a) 적합도 분석 메뉴 (b) 가중치 설정

(c) 검정변수와 기대값 설정 (d) 출력결과

그림 6.1: 적합도 검정

53

사례 : 6.4. (독립성 검정 결과) 연구자가 유의수준을 α = 0.05로 설정하고

SPSS 출력결과

• 유의확률이 0.270(그림 6.2(f))이므로 귀무가설을 기각 못하므로 성별에

따른 오락물 방영비율은 서로 독립이다고 할 수 있다.

독립성 검정에서 두 변수의 범주가 모두 두 개일 때, 즉 2×2인 경우 두 변수의 연

관성(association)의 척도로 승산비(odds ratio)가 있다. 승산(odds)은 어떤 실험에

서 성공일 확률을 p라 할 때

odds =p

1− p

이며, 승산이 주어졌을 때 성공 확률은

p =odds

1 + odds

이다. 두 변수의 성공일 확률이 p1, p2일 때 승산비는p1

1− p1p2

1− p2

=odds1odds2

이다. 또한 두 변수에 대한 상대 위험도(relative risk)는

p1p2

= odds ratio×1− p21− p1

이다. 상대위험도는한변수에대하여두범주의성공비율을비교할수있을때는

명확한 설명을 제시한다. 예를 들어 남자의 음주율과 여자의 음주율이 몇 배가 차

이가 있는지 알아보려면 쉽게 계산되며 그 의미도 이해할 수 있다. 그러나 이 값은

분모값에 제약이있기때문에많이사용되지않는다.그 예로분모의확률이 0.5라

면 분자의 최대값이 1이고 이 값은 10.5 = 2를 넘을 수 없는 단점이 있다.

반면 승산비는 각 승산(성공비율/실패비율)의 비율을 제시하기 때문에 직관적

인 해석이 어려울 수 있다. 그러나 승산비 OR은 근사적으로 평균이 log(OR)이고

분산이 σ2인 정규분포를 따른다고 알려져 있기 때문에 통계적 유의성을 평가할 수

있다. 두 그룹의 승산이 같다면 승산비는 1이다. 따라서 승산비에 대한 귀무가설

H0 :odds1odds2

= 1로 설정한다.

X ∼ N(log(OR), σ2)

위 식에 표준오차(standard error)는 근사적으로

S.E =

1

n11+

1

n12+

1

n21+

1

n22

로 알려져 있다.

54

(a) 독립성 검정과 가중치 (b) 가중치 설정

(c) 행과 열에 변수 입력 (d) 카이제곱 통계량

(e) 셀에 출력값 설정 (f) 출력결과

그림 6.2: 독립성 검정

55

사례 : 6.5. (오즈비 검정) 음주율이남녀별연관성이있는지알아려고각성별마

다 100명씩 조사한 결과 남자는 80명이 지난주 음주하였고 여자는 30명이 음주하

였다고 하자(표 6.1). 이 때 남여별 음주가 연관성이 있는지 알아보고 만일 연관성

이 있다면 얼마만큼 차이가 있는지 알아보자.

성별

지난주 음주여부음주 금주 합계

남자 80 20 100

여자 30 70 100

합계 110 90 200

표 6.1: 승산비

① 귀무가설 H0 :odds1odds2

= 1

대립가설 H1 :odds1odds2

6= 1

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림 6.3).

승산비 설정는 독립성 검정 단계 중 그림 6.2(d)에서 위험도 메뉴를 선택한

다(그림 6.3).

③ 그림 6.3(b)에표 6.1자료의출력결과가있으며남자음주율과여자음주율에

대한승산비는 9.333이며이통계량에대한 95%신뢰구간은 (4.870, 17.886)이

다. 만일 두 승산비가 통계적으로 같다면 신뢰구간에 1을 포함할 것이고 같

지 않다면 1을 포함하지 않을 것이다. SPSS에서는 유의확률을 제공하지 않

기 때문에 확인할 수 없으므로 직접 구해보면

P

[

Z ≥ log(9.333) ×

1

80+

1

20+

1

30+

1

70

]

= P [Z ≥ 6.731]

= 8.425 × 10−12

이며, 통계적으로 승산비가 1이 아니라고 할만큼 매우 큰 유의성을 가진다.

주어진변수가 3개이고 2×2×k인범주형자료에대하여알아보자.이경우는 2×2보

다 분석할 것이

56

(a) 승산비 설정 (b) 승산비 출력결과

그림 6.3: 승산비 검정

• k 개 집단별 2×2에 대한 분할표

• k 개 집단별 2×2에 대한 독립성 검정

• k 개 집단별 2×2에 대한 승산비 검정

• 전체 승산비에 대한 동질성 검정

• 전체 승산비에 대한 독립성 검정

• 전체 공통 승산비에 검정

이다. 다음 예를 보자.

사례 : 6.6. (오즈비 검정(2×2×k)) )중국 8개도시를대상으로흡연과폐암에대

한 자료이다. 이 분석에 변수 설정은 그림 6.4(a), 통계량 설정은 그림 6.4(b)를 참

조한다.

• 각 도시별 2×2에 대한 분할표(그림 6.4(c))

• 각 도시도시별 2×2에 대한 독립성 검정(그림 6.4(d))

• 각 도시별 2×2에 대한 승산비 검정(그림 6.4(e))

• 전체 승산비에 대한 동질성 검정(그림 6.4(f))

• 전체 승산비에 대한 독립성 검정(그림 6.4(f))

• 전체 공통 승산비에 검정(그림 6.4(f))

57

(a) 각 집단을 레이어에 추가 (b) 통계량 설정

(c) 분할표 출력 (d) 각 집단의 카이제곱 통계량

(e) 각 집단의 승산비 (f) 레이어 전 대상의 통계량

그림 6.4: 승산비 검정(2×2×k)58

6.3. 동일성 검정

동일성 검정(homogeneity test)은 반응변수 집단의 범주에 대하여 모집단을 부그

룹(subgroup)로 나눈 경우 부그룹의 비율이 모두 같은지 검정한다.

① 귀무가설 H0 : PA1 = PB1, ..., PAk = PBk (의미 : k 개 반응변수마다 부그

룹(A, B)의 비율은 모두 같다.)

대립가설 H1 : not H0(의미 : k 개 반응변수마다 부그룹(A, B)의 비율은같지

않다.)

사례 : 6.7. (동일성 검정) 두가지식이요법을비교하기위하여 150명 환자

를 임의로 두 집단으로 80명과 70명으로 나눈 후 한 집단에는 식이요법 A를

다른집단에는식이요법 B를 적용한후건강상태를세가지범주(좋음, 보통,

않좋음)로 나누었을 때 환자의 건강상태에 따른 식이요법 비율이 같은지 검

정해 보자.

귀무가설 H0 : PA1 = PB1, PA2 = PB2, PA3 = PB3 (의미 : 환자의 건강상태에

따른 식이요법 비율은 모두 같다.)

대립가설은 H1 : not H0(환자의 건강상태의마다식이요법비율은모두같지

않다.)

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(출력과정은 독립성 검정

과 같음).

③ 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H0)의기각,채

택 여부를 결정하고, 그 결과를 해석한다.

사례 : 6.8. (동일성 검정 결과) 연구자가 유의수준을 α = 0.05로 설정하고

SPSS 출력결과 유의확률이 0.16이라면

• 유의확률이 0.16이므로 귀무가설을 기각 못하므로 통계적으로 환자의

건강상태의 범주 비율은 식이요법마다 모두 같다고 할 수 있다.

6.4. likelihood ratio test

우도비 검정(likelihood ratio test)은 귀무가설 H0와 대립가설 H1 의 두 모델의 적

합성을비교하는통계적가설검정법으로범주형자료에서도당연히적합도를검정

59

할 수 있다. 통계적 모델에 대한 적합성을 검정하기 위한 검정통계량을 deviance라

고 하며 이 값은

D = −2 log

(

LH0

Lmax

)

로 나타낸다. 여기서 L은 우도함수(尤度函數, likelihood function)이며 통계량은

χ2(df) 분포를 따른다. 우도(likelihood)란 어떤 관측값에 통계적 모형을 적용하였

을때실제로관측한자료에대한확률을통계적모수(parameter)의 함수로나타낸

것이다. 확률은 확률변수(random variable)의 함수란 점이 우도와의 차이점이다.

우도함수는 모수 추정에 있어 가능한 추정치 중 우도가 큰 것이 더 그럴듯한(more

likely) 추정치란 것이다. 만일 추정이가능한 모수의 값이 2개일 때 우도가큰 값을

모수의 추정치로 결정한다.

사례 : 6.9. (우도함수) 10명의 환자를 일정 기간 동안 관찰한 결과 4명이 사망하

고 6명이생존하였을경우사망확률이동일하고서로독립이라면사망자수의분포

는 이항분포를 따른다고 할 수 있다.

이 경우 우도 함수 L은(

10

4

)

p4(1− p)6

로 나타낼 수 있다. 만일 사망확률이 0.2와 0.5 두 가지가 가능하단면 어떤 확률이

더 그럴듯한 확률인지 계산해 보자.

L(0.2) = 210(0.2)4(1− 0.2)6 = 0.0881

L(0.5) = 210(0.5)4(1− 0.5)6 = 0.2508

계산 결과 L(0.5)가 L(0.1)보다 크기 때문에 미지의 모수(사망확률)에 더 그럴듯한

값이라 할 수 있다.

우도비 검정에서 상수부분은 같은 값을 모든 모수 추정에 계산하므로 실제로

이 부분은 제외하고 대수우도(對數尤度, log likelihood)를 계산하며 l로 표시한다.

사례 6.9에서 대수우도 l은

l(0.2) = 4 log(0.2) + 6 log(1 − 0.2) = −7.777

l(0.5) = 4 log(0.5) + 6 log(1 − 0.5) = −6.931

이며 l(0.5) > l(0.2)이므로 0.5가 그렇듯한 모수의 추정치이다. 여기서 가설은 부모

집단(subgroup)에 대하여

60

① 귀무가설 H0: goodness of fit of a probability model (의미 : k개 범주의 비율

은 p1 = p10, p2 = p20, ..., pk = pk0이다.)

대립가설 H1 : not H0(의미 : k개 범주의 비율은 p1 = p10, p2 = p20, ..., pk =

pk0가 아니다.)

사례 : 6.10. (우도비 검정) 표 6.2에 우도비를 검정할 자료로 각 범주는 근

로자의독소노출상태와천식증상이다.독소노출에따라천식증상이연관이

있다고 할 수 있는가?

천식 증상

독소 노출없음 보통 강함

없음 9 3 3

있음 1 2 7

표 6.2: 우도비 검정

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(출력과정은 독립성 검정

과 같음). 표 6.2에서 LH0는

L(p, p, p) = pq9p2q3p7q3 = p10q15

이고 LHmax는

L(p1, p2, p3) = p1q91 × p22q

32 × p73q

33

이다. 여기서 p1 = 0.1, p2 = 0.4, p3 = 0.7이다. 따라서 log(

LH0

Lmax

)

logLH0− logLmax

= 10 log p+ 15 log q − (log 0.1 + 9 log 0.9 + 2 log 0.4 + 3 log 0.6 + 7 log 0.7 + 3 log 0.3)

= −4.1008

여기서 p = 1025 , q = 15

25 이다. 따라서 deviance likelihood χ2 통계량은

χ2 = −2× (−4.1008) = 8.2015

이며, 이 때 유의확률은 0.0166이다. SPSS로 실행해 보면 이 값이 같음을 확

인할 수 있다.

③ 유의확률이 0.0166이므로 귀무가설을 기각한다. 따라서 천식정도는 독소 노

출정도에따라다르다고 할수 있다. SPSS에서분석과정및 출력결과는독립

성 검정과 같으므로 생략한다.

61

6.5. linear–by–linear association

선형대 선형결합(linear–by–linear association)은 범주형자료가 순위형(ordinal) 자

료인 경우 두 변수에 대한 연관성을 검정한다. 이 경우 Pearson χ2과는 달리 셀의

갯수가 5보다 작더라도 관계없다는 면에서 유용하게 사용할 수있다. 이 분석방법

은 로그 선형모델에서 계수에 대한 검정으로 통계적인 모델은

log µij = λ+ λXi + λY

j + βuivj

이며, 각 범주는 u1 ≤ u2 ≤ · · · ≤ uI , v1 ≤ v2 ≤ · · · ≤ vI이다. 분석과정은

① 귀무가설 H0 : β = 0 (의미 : 두 범주는 서로 연관성이 없다.)

대립가설 H1 : β 6= 0 (의미 : 두 범주는 서로 연관성이 있다.)

사례 : 6.11. (선형대 선형결합) 표 6.3에 10대여성의출생제한과미성년자

성관계에대한조사결과가있다. 10대 여성의출생제한과미성년자성관계가

서로 연관성이 있는지 알아보자.

미성년자 성관계

10대 출생제한매우반대 반대 찬성 매우찬성

항상 잘못됨 81 68 60 38

거의 잘못됨 24 26 29 14

가끔 잘못됨 18 41 74 42

전혀 잘못없음 36 57 161 157

표 6.3: 선형대 선형결합

② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(출력과정은 독립성 검정

과 같음).

③ 분석결과 유의확률이 0.0005 미만이므로 귀무가설을 기각한다. 즉 10대 여성

의 출생제한과 미성년자 성관계는 의견은 서로 연관성이 있다고 할 수 있다.

SPSS에서 분석과정 및 출력결과는 독립성 검정과 같으므로 생략한다.

62

저서 목록

[1] Field, A. P.(2009). Discovering statistics using SPSS:and sex and drug and

rock ‘n’ roll(3rd Edition). London: Sage.

[2] Harman, H. H. (1976). Modern Factor Analysis (3rd Ed.). Chicago : Univer-

sity of Chicago Press. (pp. 320-327).

63