158
- i - 머리말 <아리마 시계열분석>을 내 놓은 지 어언 7년이라는 세월이 흘 렀다. 그러나 아직도 많은 사회과학자들이 아리마 시계열분석을 잘 사용하지 못하고 있다. 대부분의 사회과학자들은 사회 현상들 의 인과관계를 분석할 때 회귀분석에 익숙해 있을 뿐, 시계열분석 의 기본 가정들에 대한 것조차 잘 모르고 있는 경우가 많다. 이는 아리마 시계열분석 기법이 배우기도 까다롭고, 실제 분석 과정이 많은 시간과 노력을 요하는 것이어서, 그 유용성에도 불구하고 아 리마분석 기법을 공부하는 이가 별로 없다는 점에 기인할 것이다. 문제는 이들이 아리마 시계열분석을 통해 내 놓은 연구 결과를 심사할 때 회귀분석의 기본 가정을 잣대로 들이밀며 시계열분석 논문을 비평하는 데 있다. 간단히 예를 들면, 이론적 근거가 부족하다거나, 이론적으로 볼 때 이러이러한 변수들이 원인변수로서 매우 중요한데 왜 시계열분 석모형에서 이러이러한 변수들이 빠졌는가라는 비평이다. 또한 이 론적 고찰, 가설 설정, 변수 설명, 증명의 단계를 거치지 않았다는 비평도 있다. 이러한 비평들은 이론적 근거 하에서 회귀분석 등의 분석 기법을 사용할 때에는 맞는 말이지만, 경험적 자료에 아리마 분석 기법을 사용한 논문에서 해야 할 비평은 아니다. 이 이외에도 아리마 시계열분석은 미래 예측을 위해 생긴 분석 방법인데, 왜 과거의 현상과 현상의 관계를 분석하는가라는 비평 도 있고, 아리마 시계열분석의 교란항의 구조에 관해 잘 알지 못 한 상태에서 회귀분석의 오차항에 대한 관념을 시계열분석에 적용 하는 경우도 있다. 특히 시계열모형의 자동회귀 요인과 움직평균

요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- i -

머리말

<아리마 시계열분석>을 내 놓은 지 어언 7년이라는 세월이 흘

렀다. 그러나 아직도 많은 사회과학자들이 아리마 시계열분석을

잘 사용하지 못하고 있다. 대부분의 사회과학자들은 사회 현상들

의 인과관계를 분석할 때 회귀분석에 익숙해 있을 뿐, 시계열분석

의 기본 가정들에 대한 것조차 잘 모르고 있는 경우가 많다. 이는

아리마 시계열분석 기법이 배우기도 까다롭고, 실제 분석 과정이

많은 시간과 노력을 요하는 것이어서, 그 유용성에도 불구하고 아

리마분석 기법을 공부하는 이가 별로 없다는 점에 기인할 것이다.

문제는 이들이 아리마 시계열분석을 통해 내 놓은 연구 결과를

심사할 때 회귀분석의 기본 가정을 잣대로 들이밀며 시계열분석

논문을 비평하는 데 있다.

간단히 예를 들면, 이론적 근거가 부족하다거나, 이론적으로 볼

때 이러이러한 변수들이 원인변수로서 매우 중요한데 왜 시계열분

석모형에서 이러이러한 변수들이 빠졌는가라는 비평이다. 또한 이

론적 고찰, 가설 설정, 변수 설명, 증명의 단계를 거치지 않았다는

비평도 있다. 이러한 비평들은 이론적 근거 하에서 회귀분석 등의

분석 기법을 사용할 때에는 맞는 말이지만, 경험적 자료에 아리마

분석 기법을 사용한 논문에서 해야 할 비평은 아니다.

이 이외에도 아리마 시계열분석은 미래 예측을 위해 생긴 분석

방법인데, 왜 과거의 현상과 현상의 관계를 분석하는가라는 비평

도 있고, 아리마 시계열분석의 교란항의 구조에 관해 잘 알지 못

한 상태에서 회귀분석의 오차항에 대한 관념을 시계열분석에 적용

하는 경우도 있다. 특히 시계열모형의 자동회귀 요인과 움직평균

Page 2: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- ii -

요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제

기하는 경우도 있다.

아리마 시계열분석 기법을 잘 모르면 아예 비평을 하지 말거나

심사를 사양해야 할 터인데, 통계기법에 대해 잘 알고 있다고 과

신하는 학자들이 회귀분석의 잣대를 가지고 시계열분석 논문을 비

평하거나 심사하면서 문제가 발생한다. 예컨대, 회귀분석의 시각에

서 시계열분석을 비평하면서 [게재불가] 결정을 내리는 경우가 흔

하다. 완전히 선머슴 사람 잡는 격이다.

이런 경우 학회에 이의 신청을 해보기기도 하지만, 심사자가

내린 결정은 번복할 수 없다는 답신이 대부분이다. 팔이 안으로

굽어서 그런 것인가? 그러니 이의 신청이 번복되는 경우가 거의

없다. 참으로 답답한 일이다.

이러한 잘못된 심사평은 아리마 시계열분석의 기본 가정이나

논리 구조를 이해하지 못해서 나오는 잘못된 비평이다. 이 책에서

는 아리마분석 기법, 특히 여러 변수 아리마분석 기법이 회귀분석

기법과 어떠한 점이 다른가에 초점을 두고 기술하였다. 곧, 두 분

석 기법이 가정하고 있는 기본 가정들이 어떻게 다르며, 따라서

분석과 해석 방법이 어찌 다른가에 초점을 두고 기술한 책이다.

막상 회귀분석과 아리마 분석 기법의 차이에 초점을 두고 기술

하려 했으나, 이들 분석 기법들을 제대로 이해하기 위해서는 최소

한의 통계적 지식이 필요하다 싶어, 첫째 가름에서는 변수와 인과

관계에 관하여 간단히 알아보고, 둘째 가름에서는 시간의 개념과

속성에 관하여 간단히 기술하였다. 그 다음 셋째 가름에서는 회귀

분석의 기본 모형과 기본 가정, 그리고, 회귀분석에서 기본 가정이

어그러졌을 때 그것을 진단하는 방법과 해결할 수 있는 방법들을

기술하고, 회귀분석 결과를 어떤 방식으로 해석할 것인가에 관해

요점들을 정리해 놓았다.

그 다음 넷째 가름에서는 시계열분석의 의미와 기본 모형을 제

Page 3: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- iii -

시해 놓고 시계열모형의 기본 가정, 그리고 시계열모형의 문제점

과 대책을 기술하고, 시계열분석 결과를 어떤 방식으로 해석할 것

인가에 관해 한 변수 시계열과 여러 변수 시계열분석의 사례를 제

시하였다. 이는 시계열분석을 회귀분석과 비교할 수 있도록 셋째

가름의 목차를 거의 그대로 따른 것이다. 따라서 읽는 이들은 넷

째 가름을 읽으면서 셋째 가름을 회상하거나 비교한다면, 회귀분

석과 시계열분석이 어찌 다른가를 쉽게 이해할 수 있을 것이다.

한편 이 책을 읽는데 어쩌면 생소한 통계 용어 때문에 읽는 이

들이 불편할 수도 있을 것이다. 그렇지만 고급 통계 기법인 아리

마 시계열분석에서 사용하는 용어들은 원어로 표현한다 하여도 그

뜻을 이해하기 어려운 경우가 많다. 어차피 외래어를 사용할 바에

는 우리말로 통계 용어를 적절하게 번역하여 그 뜻을 이해하기 쉽

게 만들어 사용하는 것이 좋을 것이다. 따라서 이 책에서는 우리

말 통계 용어를 많이 사용하였다.

쓴 이가 통계학을 제대로 배운 것은 미국에 유학하던 1980년

대 초반이었다. 유학 생활을 할 때 가장 부담이 없고 점수 따기

좋은 과목 중의 하나가 통계학이었다. 유학생 대부분이 그렇겠지

만, 미국말을 알아듣기도 어렵고 말하기도 어려운데, 통계학의 경

우 말이 많이 필요하지 않으니 미국 학생들보다 훨씬 쉽게 학점을

따고 훨씬 더 나은 실력을 발휘할 수 있었다.

그런데 한국에 돌아와 통계학 책을 보니 왜 그리 어려운지! 우

선 통계 용어들이 한자어, 그것도 일본식 한자어 투성이여서 그

뜻을 이해하기가 무척 어려웠다. 우리말에 없는 용어들은 우리말

로 그 뜻을 쉽게 이해할 수 있도록 만들어 쓰는 것이 좋을 텐데,

일본책들을 그대로 베끼는 바람에 일본식 한자어 투성이의 통계

용어들이 그대로 쓰인 것이다. 이는 단지 통계학 분야만 그런 것

이 아니다.

쓴 이가 중고등학교를 다니던 옛날 1960년대에는 많은 학술

Page 4: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- iv -

용어들이 우리말로 되어 있었다. 보기를 들건대, 우리 말본[문법]

에서도 이름씨[명사], 안옹근이름씨[불완전명사], 대이름씨[대명

사], 셈씨[수사], 움직씨[동사], 그림씨[형용사], 잡음씨[지정사],

매김씨[관형사], 어찌씨[부사], 느낌씨[감탄사], 토씨[조사], 임자

말[주어], 풀이말[용언] 따위로 배웠고, 생물에서도 잎파랑치[엽록

소], 흰피톨[백혈구], 붉은피톨[적혈구], 피티[혈소판] 따위로, 물

리에서도 떠돌이별[행성], 붙박이별[항성], 별똥별[혜성], 소리결

[음파], 소리맵시[음색] 따위로 배웠다.

우리말로 된 학술 용어들은 한자로 된 학술 용어보다 훨씬 이

해하기 쉽고 배우기 쉬운 말들이다. 그러던 것이 언제부터인가 한

자 용어로 대치되기 시작하여 지금은 우리말 학술 용어로 이야기

하면 젊은이들이 생소해하고 웃는다. 이러한 결과가 나타난 것은

기성학자들의 학문적 사대주의 때문이라고 생각한다.

학자들이란 “쉬운 것을 어렵게 풀이하는 사람들”이라는 어느

노학자의 말이 생각난다. 지식은 널리 전파되어야 하는 것이고, 많

은 사람들이 알고 쉽게 써먹을 수 있어야 하는 것이다.

그러나 지식의 독점에서 오는 이익을 향유하기 위한 것인지 모

르겠으나, 쉬운 것도 일부러 어렵게 표현하고, 우리 말법에 맞지도

않게 비비꼬아 글월[문장]을 만드는 것이 학계에서는 유행하고 있

다. 알게 모르게 어떤 이는 여기에 익숙해져서, 또 어떤 이는 그렇

게 해야 모르는 사람보다 돋보인다 싶어서인지, 쉽게 짧은 글월로

쓴 논문들을 우습게 보는 경향도 있다.

우리말 학술 용어를 사용한 논문들은 심사자들로부터 학계에서

통용되는 한자 용어로 고치거나 아니면 원어로 논문을 수정할 것

을 권고받기 일쑤이다. 참으로 한심한 일이건만, 그렇게 하지 않으

면 출판이 안 되니 어쩔 수 없이 한자 용어, 그것도 일본식 한자

용어로 고칠 수밖에 없다.

그렇지만, 쉬운 우리말 용어들을 두고 왜 어렵게 써야 하는지,

Page 5: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- v -

왜 일본식 한자로 된 학술 용어를 써야하는지 정말로 이해가 되지

않는다.

쓴 이는 한자 교육도 받았고 한자로 된 학술 용어들도 쉽게 이

해를 한다. 그러나 젊은 세대들은 한자로 표현된 학술 용어들을

제대로 이해하지 못하는 경우가 허다하다.

이 책에서는 가능하면 그 뜻을 이해하기 쉽도록 우리말 학술

용어를 만들어 사용한다. 예컨대, white-noise를 통계학 책에서는

백색잡음으로 번역하여 사용하고 있으나, 이 책에서는 ‘없소리’로

사용한다. 두 개의 소리결이 서로 만나면 소리가 없어지는 현상을

말하는 것이기 때문이다. 백색잡음이라고 하면 무슨 뜻인지 와 닿

지 않으나, ‘없소리’라 하면 금방 그 뜻을 이해할 수 있다.

특히 시계열분석에서는 한자말로도 번역이 안 되어 원어 그대

로 쓴 말들이 많이 있다. 예컨대, stochastic이라는 말은 무작위

상태로 분포되어 있음을 뜻하는 말이다. 따라서 이 책에서는

stochastic이라는 말을 ‘제멋대로’로 번역하여 사용한다.

이와 같이 이 책에서 우리말로 바꾸어 쓴 용어들을 내놓으면

다음과 같다. co-variation[공변]을 ‘함께 변하기’로, linear 또는

linearity[선형]를 ‘곧은줄꼴’로, nonlinearity[비선형관계]는 ‘안곧

은줄꼴’, curve-linear는 ‘굽은줄꼴’로, non-spuriousness[비허위

관계]는 ‘안거짓관계’로, scatter-gram[산포도]은 ‘펼친그림’으로,

multicollinearity[다중공선성]를 ‘여러줄꼴’로, homoscedasticity

[등분산성]를 ‘같게퍼짐’으로, heteroscedasticity[이분산성]를 ‘달

리퍼짐’으로, outlier[이상점]를 ‘삐진자’로, residuals[잔차]를 ‘찌

꺼기’로, missing value[결측치]를 ‘빠진 값’으로 difference 또는

differencing[차분]을 ‘차이화’로 moving-average[이동평균]를

‘움직평균’으로, stochastic process를 ‘제멋대로 과정’으로, mul-

tivariate ARIMA model을 ‘여러 변수 아리마 모형’으로, random

walk process를 ‘발길 닿는 대로 걷는 과정’으로, input time

Page 6: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- vi -

series[투입시계열]를 ‘드는 시계열’로 output time series[산출시

계열]를 ‘나는 시계열’로 pre-whitening을 ‘앞흰 시계열’로 사용

한다.

비록 어색한 구석은 있으나, 그리고, 어떤 용어들은 우리말로

바꾸지 못하고 한자식 용어를 그대로 사용하고 있으나, 이는 읽는

이들의 양해를 구한다. 그렇지만, 이 책을 읽어나가다 보면 우리말

용어들이 한자 용어보다 훨씬 쉽게 읽는 이들에게 다가갈 것으로

생각한다. 나아가 앞으로는 우리말 학술 용어를 많이 만들어 사용

함으로써 읽는 이들이 쉽게 이해할 수 있도록 하여야 할 것으로

생각한다.

7년 전에 출간한 <아리마시계열분석>이 시계열분석 기법의 실

제에 관한 교과서에 해당한다면, 이 책은 시계열분석 기법을 좀

더 쉽게 이해할 수 있도록, 특히 회귀분석 방법과의 차이점을 중

심으로 기술한 책이다. 따라서 회귀분석에 익숙한 분들은 <아리마

시계열분석>을 교과서로 삼고, 이 책을 참고용으로 삼으면 좋을

듯하다.

통계 기법에 익숙하지 않은 초심자의 경우에는 기초 통계분석

을 공부하고 난 후, 이 책의 첫째, 둘째, 셋째 가름을 공부하면 회

귀분석에 대한 이해가 확고해질 것으로 본다. 그 다음, <아리마시

계열분석>을 공부하면서 이 책의 넷째 가름을 참고삼아 공부하면

좋을 듯하다. 많은 도움이 되었으면 한다.

2013년 5월

송근원

Page 7: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- vii -

첫째 가름 변수와 인과관계

둘째 가름 시간의 개념과 성격

차 례

첫째 갈래: 변수 ·················································································· 1

1. 변수의 뜻 ·························································································· 1

2. 변수의 측정 ······················································································ 4

3. 변수와 통계값 ················································································ 11

둘째 갈래: 인과관계 ······································································ 15

1. 인과관계의 의미 ············································································ 15

2. 인과관계 추론을 위한 조건 ························································ 17

첫째 갈래: 시간과 관련된 개념들 ·········································· 24

1. 시점, 적시성, 기간 ······································································· 24

2. 시차 ·································································································· 26

Page 8: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- viii -

셋째 가름 회귀분석

둘째 갈래: 시간의 성격 ······························································· 28

1. 시간은 독립적인가? ······································································ 28

2. 시간은 대리 변수인가? ································································ 29

첫째 갈래: 회귀분석의 의미와 기본 모형 ························· 32

1. 회귀분석의 의미와 종류 ······························································ 32

2. 회귀분석의 기본 모형과 추정 방법 ·········································· 34

3. 회귀분석과 상관관계분석 ·························································· 38

둘째 갈래: 회귀모형의 기본 가정 ·········································· 41

1. 변수에 관한 가정 ·········································································· 41

2. 오차항에 관한 가정 ······································································ 44

셋째 갈래: 회귀모형의 문제점과 대책 I ···························· 52

1. 변수 선정의 오류 문제 ································································ 52

2. 변수의 측정에 관한 문제 ···························································· 58

넷째 갈래: 회귀모형의 문제점과 대책 II ··························· 61

1. 삐진자의 문제 ·············································································· 61

2. 달리퍼짐의 문제 ············································································ 63

Page 9: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- ix -

넷째 가름 아리마 시계열분석

3. 여러줄꼴의 문제 ············································································ 66

4. 독립변수와 오차항간의 독립성 문제 ········································ 72

5. 자동상관의 문제 ············································································ 73

다섯째 갈래: 회귀분석 결과의 해석 ····································· 78

첫째 갈래: 시계열분석의 의미와 기본 모형 ···················· 82

1. 시계열분석(time-series analysis)의 의미와 종류 ··············· 82

2. 시계열분석(time-series analysis)의 기본 모형 ················· 84

3. 시계열분석(time-series analysis)의 모수 추정 방법 ········· 91

둘째 갈래: 시계열모형의 기본 가정 ·································· 102

1. 변수에 관한 가정 ······································································· 102

2. 교란항에 관한 가정 ··································································· 109

셋째 갈래: 시계열모형의 문제점과 대책 ······················· 118

1. 변수와 관련된 문제 ································································· 118

2. 교란항의 문제 ············································································· 119

3. 모형과 해석의 문제 ··································································· 121

Page 10: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- x -

넷째 갈래: 시계열분석 결과의 해석 ································ 125

1. 한 변수 시계열분석의 사례 ··················································· 125

2. 여러 변수 시계열분석의 사례 ··············································· 128

참고 문헌 ······························································································· 131

Page 11: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- xi -

표 차례

<표 1> 명목변수로 측정된 문항의 보기 ·········································· 5

<표 2> 순서변수로 측정된 문항의 보기 ·········································· 7

<표 3> 간격변수로 측정된 문항의 보기 ·········································· 9

<표 4> 비율변수로 측정된 문항의 보기 ········································ 10

<표 5> 변수들 사이의 차이를 알아보기 위한 통계기법 ············ 12

<표 6> 변수들 사이의 상관성을 알아보기 위한 통계기법 ········ 13

<표 7> 인과관계 성립을 위한 조건 1 ············································ 18

<표 8> 인과관계 성립을 위한 조건 2 ············································ 20

<표 9> 인과관계 성립을 위한 조건 3 ············································ 22

<표 10> 회귀분석 결과 ········································································ 79

<표 11> 사회복지 아래 예산들의 한 변수 모형 ························· 126

<표 12> 공공부조 예산에 관한 두 변수 모형 ····························· 129

그림 차례

<그림 1> 명목변수, 순서변수, 간격변수, 비율변수의 관계 ······ 11

<그림 2> X와 Y의 상관관계: 곧은줄꼴과 굽은줄꼴 ··················· 19

<그림 3> 변수들 사이의 거짓관계 ·················································· 21

<그림 4> 변수들 사이의 거짓관계 ·················································· 21

<그림 5> 시간적 선후 관계가 불분명한 변수들 사이의 영향 ·· 23

<그림 6> 실제 자료와 회귀선 ·························································· 34

<그림 7> Y = a + bX의 회귀선 ···················································· 35

<그림 8> 같게퍼짐(homoscedastisity) ·········································· 46

Page 12: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- xii -

<그림 9> 달리퍼짐(heteroscedastisity) ········································ 47

<그림 10> 여러줄꼴의 문제: rx1x2>rx1y 또는 rx1x2>rx2y ············· 49

<그림 11> 삐진자와 회귀선 ······························································· 61

<그림 12> 달리퍼짐(heteroscedastisity) ······································· 64

<그림 13> 찌꺼기들의 분포 ································································ 65

<그림 14> 선형회귀분석의 통계량: 공선성 진단 ·························· 68

<그림 15> 공선성 통계량 확인 ·························································· 68

<그림 16> 공선성 진단의 상태지수 확인 ········································ 69

<그림 17> 독립변수와 오차항의 관계: rxe ··································· 72

<그림 18> 오차항과와 오차항의 관계: re1e2 ································ 75

<그림 19> 추세를 보여주는 자료 ·························································· 85

<그림 20> 동향을 보여 주는 자료 ···················································· 86

<그림 21> 정태성을 보여주는 자료 ·················································· 86

<그림 22> 비정태적인 시계열(추세) ················································· 95

<그림 23> 없소리 시계열(차이화시킨 자료) ··································· 95

<그림 24> 아리마(1,0,0)과정(φ1이 +인 경우) ····························· 96

<그림 25> 아리마(1,0,0)과정(φ1이 -인 경우) ······························ 96

<그림 26> 아리마(2,0,0)과정 (φ1이 +이고, φ2가 –인 경우) ····· 97

<그림 27> 아리마(0,0,1)과정(θ1이 +인 경우) ····························· 97

<그림 28> 아리마(2,0,0)과정 (θ1이 +이고, θ2가 -인 경우) ······ 98

<그림 29> 아리마(1,0,1)과정 ··························································· 98

<그림 30> 여러 변수 시계열모형의 구조 ····································· 104

<그림 31> 모수 추정값들의 상관관계 ·············································· 113

<그림 32> 드는 시계열과 교란항과의 교차상관관계 ····················· 114

<그림 33> 없소리 점검을 위한 자동상관관계 ································ 115

<그림 34> CONG에 관한 한 변수 모형: 평균값을 가진 아리마

(1,0,0) 모형 ······································································· 116

<그림 35> 없소리 점검을 위한 자동상관관계 ································ 117

Page 13: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 1 -

첫째 가름: 변수와 인과관계

첫째 갈래: 변수

1. 변수의 뜻

1) 변수(variable)와 인과관계

이 세상에서 나타나는 그 어떠한 현상도 원인 없는 결과는 없

다. 다만 그 정확한 원인을 우리가 모를 뿐.

어떤 현상에 관해 “그것이 왜 나타났는가?”라고 질문하는 것이

학문의 시초이다. “왜?”라는 질문은 인간의 호기심에서 비롯된 것

인데, 이러한 인간의 무한한 호기심은 인간을 동물로부터 벗어나

문화와 문명을 향유할 수 있도록 해주었다.

비록 “왜?”라는 질문에 정확한 응답을 하지는 못할지언정 일부

나마 우리는 현상을 이해하고 설명할 수 있었고, 그 결과를 이용

하여 다른 동물들과는 다른 생활 영위할 수 있게 된 것이다.

원인과 결과의 관계를 인과관계라 한다. 그렇다면 원인을 어찌

찾아내야 할 것인가?

원인과 결과는 여러 개로 나타날 수 있다. 어쩌면 여러 개로 나

타나는 것이 보통일 것이다. 여러 개의 원인과 여러 개의 결과 때

문에 현상은 늘 복잡한 것이다. 사람의 살림살이만 하더라도 잘

사는 사람 못사는 사람 천차만별이다. 사람이 잘 살고 못사는 것

을 단순히 ‘돈’만으로 규정한다 하더라고 ‘돈이 얼마나 많은가’는

Page 14: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 2 -

사람에 따라 다 다르다. ‘돈’을 버는 것에 영향을 미치는 원인에

해당하는 것 역시 ‘학력’, ‘전공 분야’, ‘밑천’ 등등 무수히 많다. 학

력이 돈 버는 데 영향을 미친다고 할 때에도 사람마다 학력이 다

다르다. 초등학교도 제대로 나오지 못한 사람부터 대학원 박사학

위를 가진 사람까지 천차만별이다.

원인을 X라 표시하고 결과를 Y라 표시할 때, X에 해당하는 값

들과 Y에 해당하는 값들은 무수히 많다. 보통 원인 X가 결과 Y에

미치는 영향의 방향을 화살표 “⟶”로 표시하면, X와 Y의 인과관

계는 다음과 같이 나타낼 수 있을 것이다.

X ⟶ Y

이때 X의 값과 Y의 값은 하나로 정해져 있는 것이 아니라 무수

히 많기 때문에, 다시 말해서 변할 수 있는 성질을 띠고 있기 때

문에 이들을 변수라 부른다.1)

이와 같이 변수는 변할 수 있는 성질을 띠고 있기 때문에 둘 이

상의 값으로 분류할 수 있다. 또한 변수는 변할 수 있는 성질을

보여준다는 점에서 경험적 속성을 띤다.

2) 독립변수와 종속변수

이때, X는 원인이 되는 변수이고 Y는 결과가 되는 변수이기 때

문에 X는 원인변수, Y는 결과변수라고 부른다. 그렇지만 흔히 쓰

이는 용어로는 X를 독립변수(independent variable), Y를 종속변

수(dependent variable)라 한다. 한편, X는 Y를 설명해주는 변수

1) 한편, 그 값이 변하지 않고 존재하는 경우 이를 상수라 한다. 보통

3.14159...로 나가는 원주율값(π)이나 1.4142...로 나가는 √2의 값이

상수이다. 성별은 남성과 여성으로 구분되기 때문에 변수이지만, 남성

=M으로 불변의 값을 가질 때 변수가 아니고 상수가 된다. 여성=F와

같은 부호로 구성될 때도 마찬가지이며, 회사 A와 B 역시 상수이다.

Page 15: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 3 -

또는 예측해주는 변수이기 때문에 설명변수, 또는 예측변수(또는

예측자: predictor)라 부르는 반면에, Y는 X에 의해 설명되거나

예측되기 때문에 Y를 설명된 변수, 예측된 변수(또는 피예측자:

predictant)라 부르기도 한다.

결론적으로 볼 때, 원인변수, 독립변수, 설명변수, 예측변수(또는

예측자)는 보통 X를 가리키는 말이고, 결과변수, 종속변수, 설명된

변수, 예측된 변수(피예측자)는 Y를 가리키는 말이다.

보통 인과관계를 나타내는 수리모형의 가장 간단한 모형이

Y = a + bX

라는 함수식인데, 여기에서 X는 독립변수이고, Y는 종속변수이다.

이때 독립변수와 종속변수의 관계를 가정하는 글월을 가설

(hypothesis)이라 하며 가설이 맞는지를 검증하기 위하여 보통 통

계기법을 사용한다.

독립변수와 종속변수 사이의 인과관계를 가정하거나 검증할 때,

이들의 인과관계에 영향을 미치는 변수들로서는 매개변수, 통제변

수, 허위변수 따위가 있다.

매개변수(intervening variable)란 독립변수와 종속변수의 사이

에 끼어들어 이 둘을 인과관계로 연결해주는 변수이다. 예컨대, X

⟶ Y인 것으로 보이지만, 사실은 X ⟶ I ⟶ Y인 경우, I가 매개변

수이다. 곧, 매개변수란 X의 결과이자 Y의 원인이 되는 변수이다.

예컨대, “부모의 사회적 지위가 높으면 자식의 사회적 지위가

높다”는 가설은 부모의 사회적 지위를 자식에게 그대로 부여하기

때문에 그럴 수도 있으나 이는 혈연을 중시하는 봉건사회에서나

가능한 일일 것이다. 이보다는 부모의 사회적 지위가 자녀 교육에

영향을 미쳐 자식의 사회적 지위가 결정된다고 보아야 할 것이다.

곧, 부모의 사회적 지위(X) ⟶ 자녀 교육(I) ⟶ 자식의 사회적 지

위(Y)로 볼 수 있고 이때 자녀 교육(I)을 매개변수라 할 수 있다.

통제변수(control variable)란 독립변수와 종속변수의 관계를 다

Page 16: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 4 -

르게 설명할 수 있는 변수를 말한다. 예컨대, 소득이 학력에 따라

결정된다고 볼 때, 단순히 학력뿐만 아니라, 남녀의 임금격차 때문

에, 곧 성별에 따라서 달라질 수도 있다. 따라서 성별을 통제한 상

태에서 정말로 학력이 소득에 영향을 미치는지를 파악하여야 한

다. 이때 성별은 통제변수가 된다.

2. 변수의 측정

변수는 독립변수, 종속변수 이외에도 여러 가지가 있으나, 여기

에서는 측정 수준에 따라 명목변수, 순서변수, 간격변수, 비율변수

의 넷으로 나누어 살펴본다.2) 변수를 측정 수준에 따라 나누는 이

유는 변수의 측정 수준에 따라 변수의 조작 방법이 달라지고 적용

할 수 있는 통계값이 달라지기 때문이다.

1) 명목변수(nominal variable)

명목변수란 측정 대상을 분류하거나 이름 짓기 위해 숫자를 부

여한 변수이다. 명목변수는 부여된 숫자가 단지 그 대상을 가리킬

따름이지 다른 의미는 없다. 곧, 분류의 편의상 숫자를 부여한 것

에 불과한 변수이다. 성별, 종교, 지지 정당, 직업, 운동선수의 등

번호 따위의 변수들이 이에 해당한다.

따라서 그 값이 순서를 나타내지도 않으며, ‘크다’, ‘작다’의 의

2) 수량적 특성에 따라 구분해 볼 때, 명목변수와 순서변수는 질적 변수

(qualitative variable)이고, 간격변수와 비율변수는 양적 변수

(quantitative variable)라 할 수 있다. 이때, 명목변수와 순서변수는

이산변수(discrete variable), 또는 범주변수(categorical variable)라

고 부르며, 간격변수와 비율변수는 연속변수(continuous variable)라

부르기도 한다.

Page 17: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 5 -

<표 1> 명목변수로 측정된 문항의 보기

1. 성별: ① 여자 ② 남자

2. 종교는?

① 기독교 ② 천주교 ③ 불교 ④ 원불교

⑤ 기타 ⑥ 종교 없음

3. 지지하는 정당은?

① 새누리당 ② 민주통합당 ③ 선진한국당

④ 진보신당 ⑤ 기타 ⑥ 지지 정당 없음

미도 없고, 더하기, 빼기, 곱하기, 나누기 따위를 할 수 없다. 예를

들면 옛날 차범근 선수의 백넘버는 11번이었는데, 11번은 차범근

을 가리킬 뿐이다. 수학 기호로 표시하면 = 또는 ≠을 뜻할 뿐이

다.

보통 설문지에서 명목변수로 측정하는 문항들을 보기로 들면

<표 1>과 같다.

<표 1>에서 성별을 여자는 1, 남자는 2로 측정하였을 때, 1은

여자를 2는 남자를 지칭할 뿐 다른 의미는 없다. 다시 말해서 여

자가 먼저이고 남자가 나중이라는 의미가 있는 것도 아니고, 여자

보다 남자가 두 배나 힘이 세다는 의미도 아니다. 마찬가지로 지

지하는 정당을 묻는 질문에서 1은 ‘새누리당’을, 2는 ‘민주당’을, 3

은 ‘선진한국당’을, 4는 ‘진보신당’을, 5는 ‘기타 정당’을, 6은 ‘지

지 정당 없음’을 나타낼 뿐 다른 의미는 없다.

이와 같이 명목척도로 측정된 변수들은 단지 대상을 분류하거나

범주화하는 데 사용될 뿐 수학적 계산은 할 수가 없다. 명목변수

로 측정된 값들은 단지 분류 대상들의 빈도나 퍼센트로 표시된다.

Page 18: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 6 -

2) 순서변수(ordinal variable)

순서변수란 서열변수, 또는 순위변수라 부르기도 하는데, 측정된

값들이 순서를 나타내준다. 곧, 상대적 위치인 순서만 보여줄 그

값이 절대적인 양을 나타내주지는 않는다. 예컨대, 학력, 찬반의

강도, 정책 선호도, 승용차 유형, 거리 번호 따위를 들 수 있다.

따라서 순서는 알 수 있으나, 더하기, 빼기, 곱하기, 나누기 따

위를 할 수 없다. 수학 기호로 표시하면 =, ≠뿐만 아니라, ≤와 ≥

로 표시할 수 있다.

예컨대, 광복동 1가, 2가, 3가, 4가 따위가 이에 해당한다. 1가

다음에는 2가가, 2가 다음에는 3가가, 3가 다음에는 4가가 있다는

것을 뜻할 뿐, 1가와 2가의 거리가 2가와 3가의 거리와 같은 것

을 뜻하는 것은 아니다. 또 다른 예를 들면, 반에서 1등한 학생과

2등한 학생의 성적 차이가 2등한 학생과 3등한 학생의 성적 차이

와 항상 같지는 않다.

보통 설문지에서 순서변수로 측정한 문항들을 보기로 들면 <표

2>와 같다.

<표 2>에서 소득 수준의 측정은 1=상, 2=중, 3=하로 측정되었

는데, 여기에서 숫자 1, 2, 3은 소득이 많은 순서를 의미할 뿐 얼

마나 많은지에 대해서는 알려주지 않는다. 따라서 더하기, 빼기,

곱하기, 나누기 따위를 할 수 없다. 마찬가지로 4대강 정책을 적

극 찬성하는 사람은 1, 찬성하는 사람은 2, 반대하는 사람은 3,

적극 반대하는 사람은 4로 측정하였을 때 1, 2, 3, 4의 숫자는 강

한 찬성에서부터 강한 반대까지의 순서를 나타내줄 뿐이다.

이와 같이 순서 척도는 순서를 나타내줄 뿐 정확한 간격을 나타

내주는 것이 아니라서 적극 찬성과 찬성의 간격이 찬성과 반대의

간격이나 반대나 적극 반대의 간격과 같은 것은 아니다. 따라서

더하기, 빼기, 곱하기, 나누기 따위를 할 수 없다.

Page 19: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 7 -

<표 2> 순서변수로 측정된 문항의 보기

1. 귀하의 소득 수준은? ① 상 ② 중 ③ 하

2. 귀하는 4대강 정책을?

① 적극 찬성 ② 찬성 ③ 반대 ④ 적극 반대

3. 다음 정책들 중 귀하가 가장 중요하다고 생각하는 정책을 순서

대로 1, 2, 3...으로 매긴다면

① 정치 쇄신 ( ) ② 경제민주화 ( ) ③ 복지 ( )

④ 외교/안보/통일 ( ) ⑤ 환경 ( ) ⑥ 기타 ( )

3) 간격변수(interval variable)

간격변수는 동간변수라고도 하는데 측정된 값 사이에 동일한 거

리가 규정되어 있으나 절대영점이 없는 변수이다. 따라서 간격변

수에서 측정된 0이란 절대적인 0의 개념이 아니라 상대적인 위치

를 나타내주는 0이다. 곧, 간격변수에서는 0을 포함하여 개개 항

목에 해당되는 수치는 각각의 상대적인 위치를 말해주는 것이지

결코 절대적인 위치를 말해주는 것이 아니다.

간격변수에서는 동일한 거리가 규정되어 있기 때문에 더하기,

빼기는 할 수 있으나, 절대영점이 없기 때문에 곱하기, 나누기는

할 수 없는 변수이다. 섭씨온도계나 화씨온도계의 눈금이나 시계

의 눈금, 물가지수, 사회불평등지수, 지능지수(IQ), 도덕지수(MQ),

감성지수(EQ) 따위가 이에 해당한다.

예컨대, 섭씨 20도와 25도의 간격은 섭씨 0도와 5도의 간격과

같다. 그렇지만 절대영점이 없기 때문에 어제 10도였다가 오늘

20도가 되었다고 두 배로 덥다고 할 수는 없다. 또한 오전 8시와

Page 20: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 8 -

오전 10시의 차이는 2시간이며, 오후 9시와 오후 11시의 차이도

같은 2시간이다. 오전 8시는 오전 10시보다 앞에 있으며, 2시간

차이가 난다. 따라서 ‘8시+2시=10시’가 성립하지만, ‘8시x2시’나

‘8시÷2시’는 성립하지 않는다.3)

이와 같이 간격변수는 동일한 거리로 측정되기 때문에 순서와

간격을 나타내줄 수 있을 뿐이다. 그러나 절대영점이 없어 더하기

빼기는 가능하나, 곱하기, 나누기는 할 수가 없다. 수학 기호로 표

시하면 간격변수는 =, ≠, ≤, ≥뿐만 아니라, +, -의 조작(操作)이

가능하지만, x, ÷는 불가능하다

엄격한 의미에서는 동일한 거리로 측정되는 경우만을 간격변수

라 하지만, 거리에 관한 정보를 가지고 있고 각 척도점에 대해 응

답자들이 동일한 의미를 부여할 경우 넓은 의미에서 간격변수로

규정하기도 한다.

이와 같은 의미에서 간격변수로 측정한 문항들의 보기로는 <표

3>을 들 수 있다. <표 3>에서 측정된 나이나 공무원의 친절도는

동일한 간격으로 측정된 것으로 보기는 어렵다. 따라서 <표 3>에

서 측정한 나이나 공무원의 친절도는 엄격한 의미에서는 간격변수

라기보다는 서열변수라 해야 할 것이다. 그러나 <표 3>에서 측정

한 나이나 공무원의 친절도는 비록 우리가 임의로 같은 구간을 가

정하고 나눈 것이지만, 그 간격이 어느 정도 일정하게 제시되어

있고, 응답자들이 비슷하게 느끼는 경우이므로 넓은 의미에서 간

격변수로 규정할 수 있다.

실제 사회 현상에서는 엄격한 의미에서의 간격척도나 비율척도

로 측정된 자료들이 많지 않다. 따라서 사회과학에서는 순서척도

에 해당하더라도 간격척도로 간주하여 통계기법을 사용하는 경우

3) 6시는 3시와 3시간 차이가 있으나, 6시가 3시의 ‘두 배가 되는 시’라

고 할 수는 없다. 그러나 시간으로 표시할 때에는 비율변수가 된다. 예

컨대, 3시간 자는 사람과 6시간 자는 사람이 있으면 “6시간 자는 사람

이 3시간 자는 사람보다 ‘두 배나 더 잠을 잔다.”고 말할 수 있다.

Page 21: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 9 -

공무원의 친절도1 2 3 4 5

<표 3> 간격변수로 측정된 문항의 보기

1. 귀하의 나이는?

① 19세 이하 ( ) ② 20세~29세 ( ) ③ 30세~39세 ( )

④ 40세~49세 ( ) ⑤ 50세~59세 ( ) ⑥ 60세~69세 ( )

⑦ 70세 이상 ( )

2. 공무원이 아주 친절한 경우를 5라 하고, 전혀 그렇지 않은 경우

를 1이라 할 때 귀하가 면접한 공무원의 태도는 어떠한가요? 해

당되는 빈칸에 0표 해 주시기 바랍니다.

가 많다.

4) 비율변수(ratio variable)

비율변수란 측정된 값들이 같은 간격을 가지고 있음은 물론 절

대영점을 가지고 있는 변수를 말한다. 비율변수에서 0으로 측정된

것은 절대적인 개념으로서의 0이며, 개개의 항목에 해당하는 수치

역시 각각의 절대적인 위치를 나타낸다. 따라서 이와 같은 절대영

점이 있기 때문에 곱하기 나누기까지 할 수 있는 변수이다.

예컨대, 국민소득, 실업률, 투표율, 범죄율, 몸무게, 키, 절대온도

(0oK=-273.15℃) 따위의 변수들이 이에 해당한다. 만약 월 소득

이 1,000달러에서 2,000달러로 늘어났다면, 소득이 두 배로 뛰었

Page 22: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 10 -

<표 4> 비율변수로 측정된 문항의 보기

1. 몸무게: ( )kg

2. 키: ( )cm

3. 현 정부를 100점 만점으로 평가하신다면? ( )점

다고 말할 수 있다. 수학 기호로 표시하면 =, ≠, ≤, ≥, +, -는

물론 x, ÷의 조작(操作)도 가능하다.

보통 설문지에서 비율변수로 측정한 문항들을 보기로 들면 <표

4>와 같다. <표 4>에서 볼 수 있듯이 몸무게나 키는 일정한 간격

으로 측정되며, 절대영점을 가지는 까닭에 사칙 연산이 모두 가능

하다.

5) 명목변수, 순서변수, 간격변수, 비율변수의 관계

측정 수준에 따라 변수를 명목변수, 순서변수, 간격변수, 비율변

수로 나눌 경우, 측정 수준이 높아짐에 따라 조작의 정도나 통계

값의 적용 범위는 넓어진다.

비율변수는 명목변수, 순서변수, 간격변수, 비율변수의 속성을

다 가지고 있으나, 간격변수는 명목변수, 순서변수, 간격변수의 속

성을 가지지만 비율변수의 속성은 가지지 못한다. 또한 순서변수

는 명목변수, 순서변수의 속성을 가지나, 간격변수, 비율변수의 속

성은 띠지 못한다. 한편 명목변수는 명목변수의 속성만 가질 뿐,

순서변수, 간격변수, 비율변수의 속성을 띠지 못한다.

따라서 비율변수는 때에 따라 명목변수, 순서변수, 간격변수로

사용할 수 있다. 간격변수는 명목변수, 순서변수로 사용할 수 있으

나 비율변수로는 사용하지 못한다. 순서변수는 명목변수로 쓸 수

Page 23: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 11 -

비율변수

간격변수

순서변수

명목변수

<그림 1> 명목변수, 순서변수, 간격변수, 비율변수의 관계

(바깥의 변수가 안의 변수를 모두 포함하고 있다)

있으나 간격변수나 비율변수로 사용할 수 없다.

이를 그림으로 표시하면 <그림 1>과 같다.

3. 변수와 통계값

변수의 측정 수준에 따라 적용할 수 있는 통계값은 달라진다.

일반적으로 말하면, 측정 수준이 높아질수록 적용할 수 있는 통계

기법은 많아진다. 곧, 명목변수보다는 순서변수가, 순서변수보다는

간격변수가, 간격변수보다는 비율변수가 조작하기도 훨씬 용이하

고, 적용할 수 있는 통계기법도 훨씬 많아진다.

1) 명목변수들 사이에 차이가 있는지를 알아보려면

① 명목변수의 범주가 두 개인지, 세 개 이상인지를 파악한다.

② 명목변수의 각 집단에 속한 자료가 독립된 자료인지, 짝지어

Page 24: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 12 -

<표 5> 변수들 사이의 차이를 알아보기 위한 통계기법

종속변수

독립변수

범주변수 연속변수

명목

변수

순서

변수

비정규

분포

정규

분포

독립

자료

X2 test Fisher’s

exact test

Mann-Whitney

U test

Independent

samples t-test

짝진

자료

McNemar

test

Wilcoxon

signed rank

test

Paired samples

t-test

독립

자료X2 test

Kruskal-Wallis

testOne-way ANOVA

짝진

자료

Cochran’s Q

testFriedman test

Repeated

measure ANOVA

* Mann-Whitney U test, Wilcoxon signed rank test, Kruskal-Wallis test,

Friedman test 등은 비모수 검정임.

진 자료인지를 파악한다.

③ 종속변수가 명목변수인지, 순서변수 이상인지를 파악한다.

④ 종속변수인 간격변수와 비율변수가 정규분포를 띠고 있는지

비정규분포를 띠고 있는지를 파악한다. 만약 정규분포를 띠고 있

거나 표본 크기가 30 이상일 때에는 모수통계기법(parametric

test)을, 비정규분포를 띠고 있으면 비모수통계기법(Non-para-

metric test)을 적용한다.

⑤ <표 5>에 있는 통계값을 사용하여 그 차이가 통계적으로 유

의한지를 판단한다.

Page 25: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 13 -

<표 6> 변수들 사이의 상관성을 알아보기 위한 통계기법

변수 2

변수 1

범주변수 연속변수

명목

변수

순서

변수

비정규

분포

정규

분포

명목

변수

X2 test Mann-Whitney

U test

Kruskal-Wallis

test

Mann-Whitney

U test

Kruskal-Wallis

test

Independent

samples

t-test

ANOVA

순서

변수

Mann-Whitney

U test

Kruskal-Wallis

test

Spearman’s

rho

Kendall’s tau

Spearman’s

rho

Spearman’s

rho

비정

분포

Mann-Whitney

U test

Kruskal-Wallis

test

Spearman’s

rho

Spearman’s

rho

Spearman’s

rho

Regression

정규

분포

Independent

samples

t-test

ANOVA

Spearman’s

rho

Spearman’s

rho

Regression

Pearson’s r

Regression

* Mann-Whitney U test, Kruskal-Wallis test, Spearman’s rho, Kendall’s tau 등

은 비모수 검정임.

2) 각 변수들 사이의 상관성을 알아보려면

① 각 변수가 범주변수인지 연속변수인지를 파악한다.

② 범주변수라면 명목변수인지 순서변수인지를 알아본다.

③ 연속변수라면 정규분포인지 비정규분포인지를 알아본다.

④ <표 6>에 있는 통계값을 사용하여 두 변수의 관계가 어느

정도로 통계적으로 유의한 관련성이 있는지를 판단한다.

Page 26: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 14 -

변수들을 이와 같이 측정 수준에 따라 명목변수, 순서변수, 간격

변수, 비율변수로 나누는 중요한 이유는 이들 변수들과 변수들의

관계를 알아보기 위해서서는 서로 다른 통계값들을 사용하여야 하

는 까닭이다.

Page 27: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 15 -

둘째 갈래: 인과관계

1. 인과관계의 의미

모든 현상에는 원인이 있으며, 원인이 없다면 어떠한 현상도 일

어나지 않는다는 가정 하에서 근대 과학이 성립한다. 이것을 표현

한 명제가 인과율 또는 인과 법칙이다. 곧, 근대 과학은 어떤 현상

을 설명하기 위해 인과율(인과 법칙)을 찾아내는 것을 목적으로

한다.

1) 원인과 결과

그렇다면 인과관계란 무엇인가?

인과관계란, 앞에서 말했듯이, 원인과 결과의 관계, 곧, 두 현상

또는 두 변수 가운데 하나가 원인이 되고 다른 하나는 결과가 되

는 관계를 말한다.

이를 좀 더 정확하게 말한다면, 원인이라 부르는 어떤 현상이

일정한 조건 아래에서 결과라고 부르는 다른 어떤 현상을 만들어

낸다고 가정할 때 나타나는 관계가 인과관계이다. “일정한 조건

아래에서”라는 말이 들어가는 이유는 원인이 되는 변수들이 여럿

있기 때문에 이들을 통제한 상태에서 인과관계를 규정한다는 말이

다.

예컨대, 소비에 영향을 미치는 변수는 소득 이외에도 여러 가지

가 있다. 따라서 다른 모든 변수들이 일정할 때, 또는 다른 모든

변수들을 통제할 때, 소득이 소비에 영향을 미친다면 소득과 소비

Page 28: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 16 -

사이에는 인과관계가 성립한다.

2) 설명과 기술

두 현상이나 변수 사이에 인과관계가 있는지 여부는 이론에 바

탕을 두고 검증을 통해서 이루어진다. 만약 두 변수 사이에 인과

관계가 존재하는 것이 증명된다면, 원인이 되는 변수를 가지고 결

과가 되는 변수를 설명할 수 있다.

여기에서 설명(explanation)이란 “어떤 현상이 왜 일어났는가?”

에 대한 해답이다. 곧, 어떤 현상의 이유를 밝혀서 말하는 것이 설

명이다. 반면에 기술 또는 서술(description)이란 어떤 현상을 있

는 그대로 나타내주는 것이다. 곧, 어떤 현상의 내용이나 특성을

객관적, 논리적으로 전개하는 것을 기술(서술)이라 한다.4)

보기를 든다면, “제 18대 대통령 선거에서 부산시 유권자 수는

2,911,700명이고, 총 투표자 수는 2,219,981명이다.”라는 말은 부

산시 유권자 수와 투표자 수에 관한 기술이다. 반면에 “000후보가

당선된 것은 00정책 공약 때문이다.”라는 말은 설명이다.

비록 우리의 일상생활에서는 기술과 설명이라는 말을 혼용해서

쓰지만, 학문적으로는 이 말들을 엄격하게 구별하여 사용한다. 설

명과 기술의 차이를 한마디로 말한다면, 설명은 인과관계를 전제

로 이루어지지만, 기술은 참인가 거짓인가와는 관계가 있으나 인

과관계와는 상관이 없다.

보기를 들건대, “노무현 정부 때 집값이 폭등했다.”는 말은 참이

지만 인과관계와는 상관없는, 단지 현상만을 나타내주는 말이어서

엄격한 의미로 볼 때 설명이 아니라 기술이다.

그러나 “노무현 정부가 집값을 폭등시켰다.”는 말은 인과관계를

4) 이들과 혼동할 수 있는 말로 논술이 있다. 기술이나 서술은 객관적으

로 어떤 현상의 내용이나 특징을 제시하면 되지만, 논술은 여기에 덧

붙여 자신의 판단이나 의견을 첨가하는 것이다.

Page 29: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 17 -

나타내주는 말이지만, 이것이 참인지 아닌지는 증명을 해보아야

한다. 만약 이 말이 증명이 된다면 ‘노무현 정부가 집값 폭등 현상

을 설명해주는 것이 될 수 있겠으나, 그렇지 않음이 증명된다면

그 인과관계는 거짓이 된다.

2. 인과관계 추론을 위한 조건

그렇다면, 인과관계가 성립하기 위해서는 어떠한 조건이 필요한

가?

어떠한 두 현상 사이에 인과관계가 있다고 주장하기 위해서는

두 현상 사이의 관계가 최소한 다음의 세 가지 조건을 만족시켜야

한다.

1) 함께 변하기(co-variation)

함께 변하기는 두 개 이상의 현상이 같이 변화해 나가는 것을 뜻

한다. 만약에 어떤 사람의 교육 수준이 변화할 때 소득 수준이 변화

한다면, 다시 말해서 더 많은 교육을 받아서 소득이 올라간다면, 교

육과 소득은 함께 변하기의 관계에 있다고 할 수 있다. 반면에 어떤

사람의 교육 수준은 변하지 않았는데 소득이 오르거나 내린다면,

또는 교육을 덜 받거나 더 받았는데도 불구하고 소득이 변하지 않

는다면, 교육과 소득은 함께 변하기의 관계에 있는 것이 아니다.

이를 일반화하여 X, Y의 관계로 나타내면 다음과 같다. 곧, X가

변화할 때 Y가 변화하면 함께 변하기라는 인과관계를 추론하기 위

한 첫 번째 조건을 충족시켜준다. 그러나 X가 변화하지 않는데 Y가

변화하거나, X가 변화하는데 Y가 변하지 않는다면 함께 변하기라

는 조건이 충족되지 않으므로 X와 Y의 인관관계는 추론할 수 없다

Page 30: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 18 -

<표 7> 인과관계 성립을 위한 조건 1

두 현상의 관계 함께 변하기 조건

X⥮ ⟶ Y⥮(또는 Y⥯) 충족

‾X ⟶ Y⥮ 불충족

X⥮ ⟶ ‾Y 불충족

* 여기에서 X, Y는 두 가지 현상이고, ⥯는 변화를 ‾는 변화하

지 않음을, ⟶는 영향의 방향을 나타낸다.

(<표 7> 참조).

두 현상이 함께 변화하는 상태라면, 두 현상 사이의 인과관계를

일단은 추론할 수 있을 것이다. 이때 함께 변하는 정도는 흔히 상관

성(correlation) 또는 관련성(association)이라는 점에서 측정된다.

만약 독립변수와 종속변수가 모두 연속형 변수 다시 말해서 간격

변수이거나 비율변수이고 정규성의 가정을 만족할 때에는, 피어슨

의 상관계수값(Pearson’s correlation coefficient: r)을 적용하여

어느 정도나 함께 변화하고 있는가를 검증할 수 있다.

이때 피어슨의 상관계수값은 두 변수 사이가 곧은줄꼴(linear)이

라는 점을 가정하고 구한 상관관계값이다. 이를 곧은줄꼴에서의 상

관성(linear correlation)이라고 한다. 따라서 피어슨의 상관계수값

이 낮은 경우에는 곧은줄꼴에서의 상관성이 낮다는 말이지 실제로

두 변수간의 상관성이 낮다는 것을 의미하는 것은 아니다.

다시 말해서 곧은줄꼴이 아닌 굽은줄꼴(curve-linear)에서는 두

변수간의 상관성이 높을 수 있다. 예컨대, <그림 2>에서 만약 자료

값들이 A의 선 위에 놓여 있다면, Pearson’s r은 1이 될 것이지만,

B 선상에 놓여 있다면 Pearson’s r은 1보다 훨씬 적게 나타날 것

Page 31: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 19 -

Y

A

X

A: 곧은줄꼴에서의 상관성

Y

B

X

B: 굽은줄꼴에서의 상관성

<그림 2> X와 Y의 상관관계: 곧은줄꼴과 굽은줄꼴

이다.

만약 독립변수와 종속변수 가운데 한 변수라도 순서변수이거나

정규성 가정(normality assumption)을 만족하지 않은 경우에는 비

모수적인 Spearman’s rho나 Kendall’s tau를 사용하여 상관성을

찾아낼 수 있다.

그러나 독립변수가 명목변수라면 X2값을 사용하여 두 변수간의

차이를 검증할 수 있다. 곧, X와 Y가 차이가 있는지 없는지를 찾아

낼 수 있다. 예를 들어, 남녀간에 4대강 사업에 대한 의견의 차이가

있는지 여부를 검증할 수 있다.

그러나 이러한 상관성이 존재한다고 X와 Y 사이에 인과관계가

있다고 단정하기에는 아직 이르다. X가 Y의 원인이라고 말할 때에

는 함께 변하기라는 조건 이외에도 다음의 두 가지 조건을 충족하

여야 한다.

2) 안거짓관계(non-spuriousness)

인과관계를 추론하는 두 번째 조건은 함께 변하기의 관계가 거짓

관계여서는 안 된다는 조건이다.

Page 32: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 20 -

<표 8> 인과관계 성립을 위한 조건 2

두 현상의 관계 안거짓관계 조건

X⥮ ⟶ Y⥮(또는 Y⥯)

↖ ↗ Z

불충족

* 여기에서 X, Y, Z는 변수들이고, ⥯는 변화를 ⟶는 영향의

방향을 나타낸다.

이를 안거짓관계라 하는데, 안거짓관계란 두 변수 사이의 관계가

제 3의 변수에 의하여 동시에 영향을 받아서는 안 된다는 것을 의

미한다. 안거짓관계는 관찰된 두 변수 사이의 관계가 어떤 관련된

다른 현상 때문에 우연히 나타난 것이 아니어야 한다는 것이다. 다

른 말로 해서, 모든 다른 관련 변수들이 통제된다고 했을 때, 두 변

수 사이의 관계가 함께 변하기의 관계로 나타난다면, 이 둘은 안거

짓관계에 있다고 할 수 있다.

만약에 X가 Y의 원인이라고 하려면, X와 Y가 변화할 때 동시에

이 두 현상(변수)에 영향을 미치는 변수 Z가 없어야 한다는 것이다.

이때 Z를 거짓변수(spurious variable)라 한다(<표 8> 참조).

예컨대, 초등학생들의 발바닥과 성적을 관찰해 본 결과, 발바닥

(X)이 넓은 학생일수록 성적(Y)이 좋다는 결과가 나왔을 때, 이들의

관계는 함께 변하기라는 요건을 충족시키지만 거짓관계에 있기 때

문에 인과관계를 인정할 수 없다. 곧, 제 3의 변수인 나이(Z)라는

변수가 발바닥의 성장(X)과 학업 성적(Y)에 공통적으로 작용하는

까닭에 발바닥의 넓이와 학업 성적의 관계는 안거짓관계에 있다고

할 수 없다. 따라서 발바닥의 넓이와 학업 성적의 인과관계는 인정

할 수 없다(<그림 3> 참조).

Page 33: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 21 -

발바닥의 넓이 학업 성적

나이

<그림 3> 변수들 사이의 거짓관계

사람 수 돼지 수

과학 기술

<그림 4> 변수들 사이의 거짓관계

또 다른 예를 들어보자. 1960년 대 이후 대한민국의 인구수는 계

속 감소하는데, 사육되는 돼지의 수는 계속 증가하고 있다. 상식적

으로 보더라도 인구수가 줄어든다고 돼지 수가 늘어나는 것도 아니

며, 돼지 수가 늘어난다고 인구수가 줄어드는 것도 아닐 것이다. 비

록 인구수와 돼지 수를 가지고 상관관계를 내면 상관관계는 매우

높게 나오지만, 이들이 인과관계에 있는 것은 아니다.

이 둘의 관계는 과학 기술의 발달이라는 제 3의 변수에 의해 동

시에 영향을 받아 나타나는 현상이기 때문에 인과관계를 인정할 수

Page 34: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 22 -

<표 9> 인과관계 성립을 위한 조건 3

두 현상의 관계 시간적 선후 관계 조건

X⥮ ⟶ Y⥮(또는 Y⥯) X가 Y보다 시간적으로 앞설 것.

* 여기에서 X, Y는 변수들이고, ⥯는 변화를 ⟶ 는 영향의 방향

을 나타낸다.

없다(<그림 4> 참조).

3) 시간적 순서(time order)

이 관계는 원인이 되는 현상(X)이 결과가 되는 현상(Y)보다 먼

저 나타나야 한다는 것을 의미한다. 한마디로 원인이 결과보다 시

간상으로 앞서서 나타나야 한다는 것을 말한다. 미래의 현상이 과

거의 현상을 결정지을 수는 없는 까닭이다.

이와 같은 시간적 선후관계는 인과관계를 추론할 때 누구나 알

수 있는 당연한 조건이다.

그렇지만 사회 현상에서 이 조건을 충족시키기란 쉽지 않다. 무

슨 말인가 하면, 사회 현상에서는 함께 변하는 관계에 있고 분명

히 거짓관계는 아니지만, 어떤 것이 원인이고 어떤 것이 결과인지

알 수 없는 경우가 너무나 흔하다. 예컨대, 리더십이 있기 때문에

지위가 높아지는 것인지, 지위가 높아질수록 리더십이 생기는 것

인지 불분명하다.

또한 두 현상이나 두 변수 A, B 사이에 어떤 때는 A가 원인이

되고 B가 결과가 되지만, 또 다른 어떤 때는 B가 원인이 되고 A

가 결과가 되는 경우도 흔하다(<표 9> 참조).

Page 35: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 23 -

대통령 의회

언론

<그림 5> 시간적 선후 관계가 불분명한 변수들 사이의 영향

실제로 정책꾼들의 관계는 서로 영향을 미치고 영향을 받는데,

실제로 어떤 정책 문제에서 누가 누구에게 어느 정도의 영향을 미

치는지는 파악하기 어렵다. 보기를 들건대, 대통령은 의회나 언론

에 영향을 미치고, 의회는 대통령과 언론에 영향을 미치며, 언론

역시 대통령과 의회에 영향을 미친다. 이런 경우, 인과관계를 추론

하려면 두 변수 사이의 시간적인 선후 관계를 경험적으로 명백히

찾아내지 않으면 안 된다(<그림 5> 참조).

이와 같이 인과관계를 추론하기 위해서는 적어도 함께 변하기

(co-variation), 안거짓관계(non-spuriousness), 시간적 순서(time

order)의 세 조건이 충족되어야 한다.

Page 36: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 24 -

둘째 가름: 시간의 개념과 성격

첫째 갈래: 시간과 관련된 개념들

1. 시점, 적시성, 기간

시간과 관련된 개념들은 시점, 기간, 적시성, 시차 등 다양하다.

이렇게 시간과 관련된 다양한 개념들은 정책의 성공과 실패를 설

명하거나 분석하는 데 없어서는 안 될 중요한 개념들이다. 따라서

정책의 실패나 행정의 실패 현상을 규명할 때 이들 개념들을 명확

히 규정해 놓을 필요가 있다. 그렇지 않고서는 용어의 혼용 때문

에 행정이나 정책에서의 시간 연구에 혼란을 초래한다.

1) 시점의 개념

시간의 흐름 가운데 어느 한 점을 시점(time point)이라 한다.

행정이나 정책의 실제에서 “언제 결정을 내리고 언제 집행에 착수

하느냐”를 정하는 것은 매우 중요하다. 왜냐하면 정책결정이나 사

업 집행의 시점을 어느 점으로 잡느냐에 따라 그 효과(영향)가 달

라질 수 있기 때문이다.

원인변수의 작동 시점이 달라지면 결과가 나타나는 시점 역시

달라질 것이다. 예컨대, 정부의 정책 개입이 어느 시점에서 시작되

Page 37: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 25 -

는가에 따라 정책 효과의 양이나 형태는 물론 정책 효과가 나타나

는 시점 역시 달라질 것이다. 이러한 분석은 ‘시점’이라는 개념을

사용하여 분석할 수 있을 것이다.

2) 적시성의 개념

한편 사업 집행의 착수 시점이 그 당시의 사회 환경적 상황과

관련하여 적절한지 여부를 따지는 개념은 적시성(timeliness)이다.

적시성은 상황과의 관계에서 적절한 시점을 선택하였느냐에 관한

개념인데, 이는 정책분석에서 주로 다루는 문제이다. 곧, 정책과

관련하여 정책 결정을 내린 시점이나 집행 시점이 정책 환경과 어

떠한 관련이 있는가는 정책학의 주요 연구 주제이다.

그렇지만 만약 사회경제적 상황을 각 시점마다 변수로 잡아 계

량화할 수 있다면, 통계적인 방법으로 정책집행 시점의 적시성 여

부를 판단할 수 없는 것은 아니다.

3) 기간의 개념

한편 시점과 시점과의 사이를 나타내는 개념으로 기간(period)

이 있다. 예컨대, 정책을 집행하여 종결될 때까지의 시간적 길이는

정책의 지속성을 나타내주는 정책 기간이라 할 수 있다. 정책 또

는 사업의 진행을 시간의 흐름이라는 관점에서 볼 때 어느 정도로

지속하는가에 따라서도 그 효과가 달라진다.

마찬가지로 정책이 시행되는 시점부터 정책 결과가 나타나는 시

점까지의 시간적 길이는 정책 학습 기간이라 할 수 있다. 정책 학

습 기간은 정책이 시행된 이후 그 정책이 그 정책을 둘러싼 환경

속에서 적응하여 결과를 보여주는 데 필요한 기간을 말한다. 이런

점에서 정책 학습 기간은 정책 대상들이 정책을 이해하거나 정책

에 적응하는 기간이라고 볼 수 있다. 어찌되었든 정책 학습 기간

Page 38: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 26 -

은 시차 변수를 사용한 아리마 시계열분석 기법에 의해 분석해낼

수 있다.

2. 시차

1) 시차의 개념

한편 시차(time lag)는 독립변수 X가 종속변수 Y의 변화를 나타

내는 데 관련된 시간의 차이를 나타낸다. 이는 일정한 시점과 시

점 사이의 간격을 의미한다.

시간적 간격으로 표현된다는 점에서는 기간 또는 지속성이라는

개념이 있으나, 기간 또는 지속성이라는 개념은 단순히 시간의 길

이를 의미하는 반면에 시차는 일정 기간 동안에 나타나는 변화의

차이를 표현할 때 쓰인다는 점에 차이가 있다. 곧, 시차는 시간의

흐름에 따라 나타난 변화의 양(효과)을 측정하기 위한 분석 도구

로 쓰일 수 있다는 점이 그 특징이다.

2) 시차의 분석: 정책 학습 기간

인과관계에서 원인이 되는 변수가 작용한 후 바로 결과가 나타

나는 경우도 있을 수 있으나, 대부분은 어느 정도 시간이 흐른 다

음에야 그 결과가 나타나는 것이 보통이다.

이때의 결과 역시 서서히 점진적으로 나타나는 경우도 있고, 크

게 결과가 나타났다가 서서히 그 효과가 줄어드는 것도 있을 수

있다(이에 관하여는 송근원, 2005: 25-29 참조).

어찌되었든 일정한 시간적 흐름이 있은 다음에 정책 효과가 나

타나는 경우, 그 기간은 앞에서 말했듯이 정책 학습 기간 또는 정

책 적응 기간이라 할 수 있을 것이다.

Page 39: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 27 -

만약 각 시점마다 계량화된 자료가 구비되어 있다면, 이러한 시

계열 자료들을 가지고 아리마모형을 만들어 정책 학습 기간을 보

여주는 시차 변수를 찾아낼 수 있다. 아리마모형짓기에서 잡아낸

시차 변수는 정책 학습 기간뿐만 아니라 그 기간 동안에 나타나는

정책 효과의 양도 보여준다. 이와 같이 시차는 정책 학습 기간을

분석하는 데 유용한 분석 도구이다.

3) 시차의 분석: 정책 반응 기간

정책 학습 기간은 정책꾼들(policy actors) 사이에서는 정책 반

응 기간으로 나타난다. 예컨대, 대통령이나 언론에서 어떤 문제를

공론화하면, 의회에서는 어느 정도의 시차를 가지고 반응을 한다.

공공아젠다와 정부아젠다의 관계, 좀 더 구체적으로 대통령아젠

다가 의회아젠다와 언론아젠다에 미치는 영향이나 언론아젠다가

대통령아젠다나 의회아젠다에 미치는 영향을 연구한 결과에 따르

면, 아젠다 시작 단계인가, 아젠다 적응 단계인가에 따라 정책 반

응 기간에는 차이가 나타난다(Song, 1987 및 1989 참조).

이 연구 결과에 따르면, 정책꾼들의 정책 반응 기간은 아젠다

시작 단계에서보다 아젠다 적응 단계에서 훨씬 빨라진다는 것이

밝혀졌다. 그 이유는 새로운 정책이 시작되는 단계에서는 그 정책

에 관해 잘 모르기 때문에 다른 정책꾼들의 반응이 늦지만, 일단

정책이 시행된 이후 어느 정도 시간이 흐르면서 그 정책이 계속되

는 경우에는 그 정책에 관한 전문 지식(expertise)이 생기기 때문

에 다른 정책꾼들의 반응이 빨라진다. 곧, 정책에 관한 전문 지식

의 유무 등 학습 효과가 정책꾼들의 반응 기간에 영향을 미친다

(Song, 1987 및 1989 참조).

이와 같이 시차의 분석은 정책 학습 기간이나 정책 반응 기간에

대해 유용한 분석 결과를 제공해 준다.

Page 40: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 28 -

둘째 갈래: 시간의 성격

1. 시간은 독립적인가?

시간을 보는 눈은 여러 가지이다.

시간을 본질적 실체로 보는 견해에서는 ‘시간’이 독립된 실체로

서 사회 현상에 작용한다고 본다. 곧 사회 현상에 미치는 시간의

영향을 찾아내기 위해 시간을 독립변수로 사용한다.

반면에 시간을 독립적이 아니라고 보는 견해에서는 시간을 존재

하는 실체로 보지 않는다. 시간은 모든 현상에 작용하는 것, 또는

모든 현상이 공유하는 것으로서 시간 자체가 하나의 독립변수로

작용하는 것은 아니다. 시간은 현상에 녹아들어가 그 변화를 포함

한 새로운 현상을 나타낼 수 있을 뿐이다. 이는 이달곤(2007:

165)이 말하는 ‘변화가 통과하는 과정에 시간을 존치시키는 일’에

불과하다는 언명과는 분명 다른 의미이다.

우리가 관찰하는 것은 각 시점의 현상과 현상의 관계이며, 각

현상에는 시간의 경과에 따른 변화가 내포되어 있을 뿐이다. 따라

서 두 현상간의 변화에서 나타나는 인과관계를 규명하려 할 때 우

리는 (시차가 내포되어 있는) 현상과 현상과의 관계를 추적하는

것이지, 이 두 현상 이외에 따로 독립적으로 시간이라는 변수를

원인변수로 첨가하는 것은 아니다.

예컨대, Yt가 결과변수이고 시간의 흐름에 따라 이에 영향을 미

친 원인변수로서 Xt와 Zt를 잡는다면, 그 모형은 다음과 같이 표시

할 수 있다.

Page 41: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 29 -

Yt = θ0 + b0Xt + b1Xt-1 + b2Xt-2 +····· + bnXt-n

+ c0Zt + c1Zt-1 + c2Zt-2 +····· + cnZt-n + at

비록 정태적 분석 방법인 회귀분석 방법을 시계열자료에 적용하

는 경우에 어떤 정책(또는 어떤 사건)의 영향을 파악하기 위하여

원인변수로서 시간 변수를 회귀모형에 넣는 경우가 있으나, 이 경

우에도 엄밀하게 말해서 시간이 실제로 존재하는 변수로 들어가는

것은 전혀 아니다. 단지 시간의 흐름에 따른 정책이나 사건의 영

향을 대리하여 시간 변수를 사용하는 것일 뿐이다.

예컨대, 어떤 사건이나 정책의 단기적 영향을 보기 위하여 개입

한 시점 이전에는 0을, 개입한 시점에서는 1을 넣고, 그 다음 시

점에서부터는 0을 넣어 분석하는 경우가 있다. 이는 개입의 단순

한 영향을 가정했을 경우이다.

한편, 개입의 영향이 지속적으로 일정함을 가정하면서 장기적

영향을 보기 위해서는 개입한 시점 이전에는 0을, 개입한 시점부

터는 계속 1을 넣어 분석하기도 한다.

또한 장기적으로 개입의 영향이 상승한다고 보는 경우에는 개입

한 시점 이전에는 0을, 개입한 시점부터는 시간의 흐름에 따라 1,

2, 3, 4, 5, 6 ····· 을 넣어 분석하기도 한다.

그러나 이러한 경우에도 이것을 시간의 (독립적) 영향이라고 보

기는 어렵다. 왜냐하면 시간의 흐름에 따른 사건이나 정책의 영향

을 (파악하기 위하여) 단순히 시간이라는 변수로 대치한 것에 불

과하기 때문이다.

2. 시간은 대리변수인가?

주식의 변동 과정을 모형화했을 때 이달곤(2007: 166)은 이를

Page 42: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 30 -

“모든 구체적인 사안이 통합적으로 파동으로 해석한다는 점에서는

대리변수(proxy variable)에 의존하는 성향이 있다”고 보고 있으

며, 따라서 “본질적인 이해를 하려고 하거나 대책을 마련하기 위

해서는 시간 밑에 있는 절차나 변수의 구체적인 검토가 필요함을

지적”하고 있다.

그러나 이 경우에도 대리 변수로서의 역할로 보기보다는 시간의

흐름에 따른 ‘주가 자체의 변화’로 보아야 할 것이다. 물론 그 안

에는 여러 가지 원인변수들이 녹아 있을 것이다. 그렇지만 여러

원인변수들의 영향이 녹아 있는 것 자체는 어떤 사상이 시간의 흐

름에 따라 변화한 결과라고 생각하여야 한다. 이 경우에 이를 모

형화하면 한 변수 아리마모형(Univariate ARIMA Model)이 된다.

그렇다고 그 안에 포함되어 있는 원인변수들을 간과하자는 이야

기는 아니다. 만약 원인변수들을 찾아 모형을 만들어내면 여러 변

수 아리마모형(Multivariate ARIMA: MARIMA: 마리마)이 되는데,

적합한 마리마 모형을 만드는 경우 우리들은 원인변수들의 시차에

따른 영향력을 분석해낼 수 있다. 이런 점에서 볼 때 시간 자체가

결코 대리변수로 기능하는 것은 아니라는 사실을 알 수 있다.

다만 우리가 모르는 변수들의 영향력은 MARIMA 모형에서도

교란항(disturbance term)에 잡히게 되어 있는데, 이러한 교란항

은 이달곤(2007: 166)이 말하는 대리변수(proxy variable)의 역할

을 한다고 볼 수 있다.

이는 미국 사회예산과 국방예산의 상쇄관계에 관한 논문(Song,

2002)과 미국 사회보험예산에 영향을 미친 요인에 관한 연구(송근

원, 1989b: 310-312; Song, 1992)에서도 밝혀진 바 있다.

예컨대, 송근원의 논문(1989b)을 보면, 미국의 사회보험예산에

작용하는 변수로서 실업률, 국민소득 등의 변수를 드는 시계열로

삼아 마리마 모형을 만들었는데, 이 모형의 교란항에는 t-3의 시

차를 가지고 부(負)적인 영향(마이너스 영향)이 나타나고 있다.

Page 43: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 31 -

처음에는 그 원인을 몰랐는데, 나중에 후속 연구를 통해 이 교

란항이 2년 주기의 선거가 미치는 영향임을 알아냈다(Song,

1992: 377 참조).

이와 같이 원인변수들이 마리마 모형에서 빠지는 경우 그것들이

교란항에서 자동회귀 요소나 움직평균 요소로 모형화되는데, 이때

교란항은 빠진 원인변수들의 대변수 역할을 한다고 볼 수 있다.

Page 44: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 32 -

셋째 가름: 회귀분석

첫째 갈래: 회귀분석의 의미와 기본 모형

1. 회귀분석의 의미와 종류

1) 회귀분석의 의미

회귀분석(regression analysis)은 변수와 변수와의 관계에 관

한 것이다. 상관관계가 변수끼리 서로 어느 정도나 관련되어 있는

가를 이야기해 준다면, 회귀분석은 한 변수의 변화가 다른 변수의

변화에 어떠한 관계가 있는가를 말해 준다.

회귀분석은 독립변수와 종속변수들의 관찰값들을 가지고 이들

사이의 관계를 보여주는 곧은줄꼴로 된 회귀방정식을 구하여 이들

사이의 의존 관계를 분석하는 방법이다. 회귀모형은 독립변수와

종속변수의 관계를 회귀방정식으로 나타낸 일종의 수리모형이다.

이 분석을 통해 우리는 종속변수가 독립변수에 얼마나 의존하는

가를 알 수 있고, 이를 토대로 독립변수의 특정 값이 주어졌을 때

이에 따른 종속변수의 값을 예측할 수 있다. 또한 이 수리모형이

이러한 의존 관계를 얼마나 잘 설명하고 있는지를 판별할 수도 있

다.

비록 회귀분석이 변수들 사이의 의존관계를 다루지만, 그것이

반드시 인과관계를 나타낸다고 할 수는 없다. 곧, 두 변수 사이의

통계적 관계가 반드시 인과관계를 의미하는 것은 아니다. 인과관

Page 45: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 33 -

계는 통계학 바깥에서, 곧 궁극적으로는 이론이나 다른 어떤 데서

추론되는 것이다.

회귀분석은 변수들 사이에 존재하는 통계적 의존성(statistical

dependence)을 나타내 주는 것이다. 변수들 사이의 통계적 의존

성이란, 확률분포를 띠고 있는 무작위 변수들(stochastic or

random variables)의 관계를 나타내는 말이다. 통계적 관계는 함

수관계에 견주어 설명하면 훨씬 쉽게 이해할 수 있다.

① 함수적 관계(functional relation): 함수적 관계는 변수들 사

이의 관계를 하나의 수학 공식으로 나타낼 수 있을 때 나타나는

관계이다. 예컨대, 뉴톤의 중력 법칙이나, 옴의 법칙 등 결정론적

인 현상(deterministic phenomena)에서 나타나는 변수들 사이의

관계가 그러하다.

이는 Y = a + bX 에서 X에 대응하는 Y의 값이 하나인 관계를

의미한다. 보기를 들면, 전화 기본요금이 3,000원이고, 시내 한 통

화당 30원이면, 전화 회수를 X라 하고 총 전화 요금을 Y라 할

때, Y = 3000 + 30X라는 함수적 관계가 성립한다.

② 통계적 관계: 이는 함수적 관계와는 달리 독립변수의 값이

하나일 때 대응하는 종속변수의 값이 여러 개인 경우를 의미한다.

곧, 반복적으로 표본을 추출했을 때, 독립변수는 고정되어 있고

(fixed or non-stochastic), 종속변수는 확률적 분포를 이루는 제

멋대로(stochastic)의 상태를 보여 줄 때 나타나는 관계이다.

2) 회귀모형의 종류

회귀분석은 종속변수 Y를 설명하는 독립변수 X가 하나일 때를

한 변수 회귀분석(단순회귀분석)이라 하고, 여럿일 때를 여러 변수

회귀분석(중회귀분석: 다중회귀분석)이라고 한다.

실제로 하나의 변수에 의해 설명되는 사회 현상은 거의 없다.

어떤 현상이 나타날 때에는 수많은 원인들이 존재하기 마련이다.

Page 46: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 34 -

Y

* ** * * * * ** *** * *** * ** ** * * *** * *** ** * * *** *** * * * * *** * * *** **** * ** ***** * ***** ** ***** ** ******* ** ** a * *

X

<그림 6> 실제 자료와 회귀선

이와 같이 여러 개의 독립변수를 모형에 포함시켜 다른 독립변

수들을 통제한 상태에서 하나의 독립변수가 종속변수에 미친 영향

을 찾아내야하는데, 이러한 모형을 여러 변수 회귀모형이라 부른

다.

여러 변수 회귀분석에서는 오차의 분산을 줄일 수 있으므로 종

속변수에 대한 설명력이 높아진다. 뿐만 아니라 각각의 독립변수

가 종속변수에 미친 영향을 서로 비교할 수도 있다.

2. 회귀분석의 기본 모형과 추정 방법

1) 회귀선

실제 두 변수 X와 Y의 관계를 나타내는 관찰값들은 아래 <그림

6>과 같이 나타낼 수 있을 것이다. 이러한 실제 관찰값들을 하나

의 곧은줄로 표현해 낸 선이 회귀선(regression line)이다.

만약 독립변수 X와 종

속변수 Y의 상관관계가

완벽하다면, 곧 rxy=1이라

면, 독립변수 X에 따른

종속변수 Y의 값은 예측

이 가능할 것이다.

그러나 현실적으로는

<그림 6>에서 볼 수 있는

것처럼 Y의 관찰값들은 X

의 값에 대응하여 여러

개가 나타날 수밖에 없다.

다시 말해서 X와 Y의 상

Page 47: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 35 -

Y

b

1

a

X

<그림 7> Y = a + bX의 회귀선

관관계가 완벽하게 나타난다는 것은 거의 불가능하므로 상관계수

가 1이 아닐 때 펼친그림에서 나타나는 모든 점들을 대표하는 곧

은줄을 그을 수 있다고 가정할 수 있는데, 이를 회귀선이라 한다.

따라서 회귀선은 실제 관찰값들을 적절히 대변할 수 있어야 한다.

회귀선을 그리는 원리는 독립변수 X값에 따라 종속변수 Y값이

흩어져 있을 때 X값을 회귀식에 대입해 나타나는 기대값과 실제

종속변수 Y값의 차이가 가장 작아야 한다.

2) 기본 모형

회귀분석에서 가장 중요한 가정 중의 하나는 독립변수 X와 종

속변수 Y가 곧은줄꼴 관계에 있다는 것이다. 곧, X와 Y는 1차함

수의 관계로 나타나며, 회귀모형은 기하학적으로 볼 때 곧은줄꼴

로 표현되는 방정식 형태를 띠게 된다.

회귀분석은 통계적 관계를 다루며, 한 변수 회귀모형의 형태는

다음과 같다.

Y = a + bX +e

<그림 7>에서 X가 독립

변수이고 Y가 종속변수이

며, a는 회귀상수로서 상수

항(constant) 또는 Y 절편

이라 부르고, b는 기울기이

며, e는 오차항이다.

a는 회귀선이 Y축과 만나

는 점의 값을 의미한다. 곧,

독립변수 X가 0일 때 Y의

값을 뜻한다.

예컨대 소득(X)과 소비(Y)

Page 48: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 36 -

의 관계에서 소득이 0일 때에도 기본 생활비는 들 것으로 가정할

수 있는데, a는 바로 이러한 기본 생활비를 나타내 주는 것으로

이해할 수 있다. b는 X가 한 단위 증가할 때 Y가 b만큼 증가함을

의미한다(<그림 7> 참조).

e는 오차항인데, 이는 <그림 6>에서 실제 관찰값들과 그어진

회귀선과의 차이에 관한 것으로서 X 이외의 우리가 모르는 모든

변수들이 Y에 미치는 영향의 합을 나타낸다.

이를 여러 변수 회귀모형으로 바꾼다면 그 모형의 형태는 다음

과 같이 바뀔 것이다.

Y = a + b1X1 + b2X2 +ㆍㆍㆍㆍㆍㆍ + bnXn +e

여기에서 X1, X2,ㆍㆍㆍㆍㆍ , Xn가 독립변수들이고, Y는 종속변수이

며, a는 상수항이고, e는 오차항이다. b1, b2,ㆍㆍㆍㆍㆍ , bn은 각 독립

변수들의 기울기이다. b1은 다른 모든 독립변수들이 통제되었을

때, X1이 한 단위 증가하면 Y가 b1만큼 증가함을 의미한다(b2,ㆍㆍㆍ

ㆍㆍ , bn도 마찬가지로 해석할 수 있다). 오차항 e는 독립변수 X1,

X2,ㆍㆍㆍㆍㆍ , Xn들 이외의 우리가 모르는 모든 변수들이 Y에 미치는

영향의 합이다.

3) 보통최소제곱법

회귀분석에서는 독립변수와 종속변수 사이의 관계를 설명하기

위하여 오차항을 최소화하는 회귀선을 찾아내어야 한다.

실제 관찰값과 회귀선과의 차이를 편차라 하며, 이 편차값을 나

타내주는 것을 오차항(error term)이라 하는데, 관찰값들을 가장

잘 대표하는 회귀선은 모든 오차항의 합이 0이 되는 선이다.

그러나 모든 오차항의 합이 0이 되는 회귀선은 실제로 여러 개

그을 수 있다. 이때 이들 회귀선들에서 측정되는 오차항의 합은

모두 +, -로 상쇄되어 어느 것이 가장 좋은 회귀선인지 알 수가

Page 49: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 37 -

없게 된다.

따라서 편차를 모두 더하는 경우 서로 상쇄하여 0이 되는 것을

막기 위해 편차를 제곱하여 제곱한 값들의 합이 최소인 회귀선을

찾아내는 방법이 보통최소제곱법(Ordinary Least Square

Method: OLS)이다.

이와 같이 보통최소제곱법을 사용하여 편차를 제곱하여 합한 값

이 최소가 되는 회귀선을 찾아내면, 이 선이 관찰값들을 대표하는

가장 좋은 회귀선이 된다.

회귀분석이란 관찰값들을 가장 잘 대표할 수 있는 회귀선을 찾

아내어 회귀방정식을 추정해 내는 일이라 할 수 있다. 다시 말해

서 한 변수 회귀분석에서는 X와 Y의 관계를 가장 잘 나타내주는

회귀선

Y = a + bX +e

에서 a와 b의 값을 추정하는 것이고, 여러 변수 회귀분석에서는

여러 개의 독립변수들 X1, X2 ....... Xn과 Y의 관계를 보여주는 회

귀선

Y = a + b1X1 + b2X2 +ㆍㆍㆍㆍㆍㆍ + bnXn +e

에서 a와 b1, b2 ...... bn의 값을 추정하여 해석하는 일이다.

한편 이들 모수값들을 추정하는 방법으로는 보통최소제곱법 이

외에 최대가능성추정법(Maximum Likelihood Method: ML)이 있

다.

이 방법은 어떤 확률변수에서 표본으로 추출한 값들을 바탕으

로 그 확률변수의 모수를 구하는 방법이다. 곧, 어떤 모수가 주어

졌을 때 원하는 값들이 나올 가능성을 찾아내어 그 가능성을 최

대로 만드는 모수를 선택하는 방법이다. 곧, 각 표본 관찰값의 밀

도함수를 극대화함(표본의 수를 무한히 증가시킴)으로써 모수값을

Page 50: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 38 -

추정하는 방법이다. 만약에 정규성을 가정한다면 보통최소제곱법

에 의한 추정값이나 ML에 의한 추정값은 같게 된다.

보통최소제곱법은 오차항의 분포를 몰라도 사용할 수 있는 데

반하여, 최대가능성추정법은 오차항의 분포를 알고 있는 경우에만

사용할 수 있다.

3. 회귀분석과 상관관계분석

1) 회귀분석과 인과관계

비록 회귀분석이 변수와 변수 사이의 의존관계를 다루고 있지

만, 이들의 관계가 반드시 인과관계를 뜻하는 것이라고 볼 수는

없다.

왜냐하면, 통계적 관계가 본질적으로 인과관계를 의미하는 것이

아니기 때문이다. 인과관계를 이야기하려면 선험적으로나 이론적

으로 뒷받침이 되어 있어야 한다.

인과관계의 세 가지 조건, 곧, 함께 변하기(co-variation), 안거

짓관계(non-spuriousness), 시간적 순서(time order) 따위는 회

귀분석이 보장해주는 것이 아니다. 이들 조건들은 통계가 아니라

이론적으로나 선험적으로 명백하게 충족되어 있을 때, 두 변수간

의 인과관계를 추론 할 수 있는 것이다.

따라서 회귀분석에서 독립변수와 종속변수를 규정하는 것은 선

험적으로나 이론적인 근거에 입각해서 이루어져야 한다. 만약 이

론이 잘못되었다면, 회귀분석의 결과를 인과관계로 받아들일 수

없는 것이다.

이런 점에서 “통계적 관계는, 아무리 강하고 아무리 시사적

(suggestive) 이라고 하더라도, 결코 인과관계를 말해 주지는 않

Page 51: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 39 -

는다. 인과관계에 대한 우리의 생각은 통계학이 아니라, 다른 이

론으로부터 나와야만 한다.”는 켄들(Kendall)과 스튜아트(Stuart)

의 말을 명심할 필요가 있다.

2) 회귀분석과 상관분석의 차이

회귀분석(regression analysis)과 상관분석(correlation analy-

sis)은 밀접하게 관련되어 있으나 상당히 다른 점이 있다.

상관분석은 두 변수 사이의 곧은줄꼴 관계(linear association)

의 강도나 정도를 측정해 준다. 상관관계에서 추정되는 계수값은

이런 곧은줄꼴 관계의 강도를 측정하는 척도일 뿐이다.5)

예를 들면 통계학 시험 점수와 수학 시험 점수 사이에는 어느

정도로 깊은 관련성이 있는가를 보여주는 것이 상관계수

(correlation coefficient)이다. 그렇지만 상관계수가 이들 사이의

인과관계를 말해주지는 않는다. 곧, 어느 것이 독립변수이고 어느

것이 종속변수인가에 대해서는 관심을 두지 않고 단지 둘 사이의

관계가 어느 정도인가에 관심을 둔다.

회귀분석에서는 어떤 변수의 고정된 값을 토대로 다른 변수의

평균값을 측정하고 예측하는 데 주로 관심을 기울인다. 예컨대,

수학 시험에 관한 학생들의 점수를 안다면 통계학 시험에 대한

평균 점수를 예측할 수 있을 것이다.

그러면 두 가지 기법의 근본적 차이는 무엇인가? 회귀분석에서

5) 상관분석에서 보여주는 상관계수는 곧은줄꼴의 강도나 정도를 측정해

주는 것이므로 두 변수의 관계가 굽은줄꼴(curve-linear)로 나타나는

경우에는 사용할 수 없다. 예컨대, 상관분석에서 보여주는 상관계수값

이 낮다고 하여 두 변수 사이의 관계가 적다든가 없다고는 말할 수

없다. 두 변수의 관계가 곧은줄꼴 관계가 아니고 굽은줄꼴일 수도 있

기 때문이다. 따라서 이 경우에는 관찰값들이 어느 정도나 흩어져 있

는가(degree of scattering)를 보여주는 펼친그림(scatter-gram)을

그려 확인할 필요가 있다.

Page 52: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 40 -

는 종속변수와 독립변수가 비대칭적(asymmetric)으로 다루어진

다. 종속변수는 통계적이고, 무작위적이며, 제멋대로(stochastic)

인 것으로 가정된다.6) 다시 말해서 확률적(probability) 분포를

보이는 것으로 가정한다. 반면에 설명변수들은 고정된 값(fixed)

을 지닌 것으로 가정한다.

이에 반해 상관분석에서는 모든 변수를 대칭적(symmetric)으로

취급한다. 곧, 독립변수와 종속변수 사이의 구별이 존재하지 않는

다. 나아가, 두 변수는 무작위한 것(무작위로 추출되는 것)으로

가정한다. 다시 말해서 대부분의 상관관계 이론은 변수의 무작위

성(randomness)을 가정하고 있다.

쉽게 말해서, 회귀분석은 원인과 결과를 가정하고 원인이 되는

변수가 결과가 되는 변수를 어느 정도 설명하는가에 관심을 가지

기 때문에 종속변수와 독립변수가 다르게 취급되지만, 대부분의

상관분석은 원인과 결과와는 상관없이 변수 서로의 관련성에 초

점을 두기 때문에 변수들이 모두 무작위한 것으로 취급된다.

한 변수 회귀분석(단순회귀분석: simple regression analysis)

모형은 어떤 종속변수가 하나의 독립변수에 의하여 영향을 받는

다는 것을 가정하면서 만든 회귀모형이고, 여러 변수 회귀분석

(multiple regression analysis) 모형은 하나의 종속변수가 둘 이

상의 독립변수에 의존하는 것을 말한다. 바꾸어 말하면 단순회귀

분석에서는 독립변수가 하나뿐이고, 여러 변수 회귀분석에서는 독

립변수가 둘 이상인 것이다.

회귀분석을 할 때에는 상관분석을 통해 일단 변수들의 관계를

조사한다. 만약 독립변수들 사이의 상관관계가 종속변수와의 관계

보다 높으면 여러줄꼴(multicollinearity)의 문제점이 나타난다(이

에 대하여는 다음 갈래 참조).

6) 무작위(random)이라는 말은 제멋대로(stochastic)라는 말과 비슷한

말이고, ‘제멋대로’라는 말은 확률적이라는 뜻을 내포하고 있다.

Page 53: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 41 -

둘째 갈래: 회귀모형의 기본 가정

1. 변수에 관한 가정

1) 변수 선정에 관한 가정(No specification error)

회귀모형에서 사용되는 변수들은 제대로 특정화(specified)되어

야 한다. 곧, 어떤 변수가 모형에 포함되어야 하며 어떤 변수가 불

필요한 변수인지를 제대로 찾아내어 모형을 만들어야 한다.

회귀모형을 만들 때는 독립변수들과 종속변수 그리고 오차항에

대하여 어떠한 가정을 해야 하는지를 잘 생각한 후, 그것에 바탕을

두고 모형을 만들어야한다. 왜냐하면 중요한 변수를 모형에서 빠뜨

린다든지, 잘못된 함수 형태를 취한다든지, 또는 불필요한 변수를

모형에 집어넣게 되면, 추정된 회귀모형의 타당성은 떨어지기 때문

이다.

그러나 실제적으로 모형에 포함되어야 할 올바른 변수들을 모

두 찾아내어 집어넣기는 어려울 것이다. 또한 올바른 함수 형태,

곧, 모형에 포함되는 변수들의 관계에 대해 확실하게 안다는 것

역시 거의 불가능하다. 그러므로 사실상 정책평가자들은 변수의

선정이나 회귀모형의 형태를 선택할 때, 이론에 근거를 두고 판단

하여야 하고 변수들의 관계에 관해 어느 정도 추계적 가정을 해

야만 한다. 따라서 경험적 분석을 위해 ‘올바른’ 모형을 만드는

데에는 어느 정도 시행착오가 있게 마련이다.

위에서 알 수 있듯이 회귀분석은 모형에 집어넣은 변수들과 선

택한 모형의 형태에 따라 영향을 받는다. 특히 변수들의 관계에

Page 54: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 42 -

대해 여러 가지 이론들이 있을 때에는 특별히 많은 주의가 필요

하다. 이런 까닭에 종종 회귀모형의 구성을 과학이라기보다는 기

술(art)이라고 부르는 이유이다.

2) 변수의 측정에 관한 가정(No measurement error)

풍부하면서도 양질의 자료가 훌륭한 연구의 기본이라는 것은

당연한 것이다. 만약 자료에서 측정오차가 존재한다면, 회귀계수

b값은 믿을 수 없게(unreliable) 된다. 따라서 회귀분석에서는 자

료의 정확성을 가정한다.

그러나 때로는 자료의 질이 떨어지는 경우가 가끔 있다. 왜냐하

면, 첫째, 사회과학의 자료는 대부분 고의든 고의가 아니든 관찰

자의 오차가 있게 마련이다. 둘째, 비록 실험적으로 수집된 자료

라 할지라도 근사값에서 발생하는 측정상의 오차가 있다. 셋째,

표본에서 오차가 발생한다. 예컨대, 무응답의 문제가 심각한 제약

요인으로 작용할 수 있다. 만약 응답률이 20%인 질문지를 분석

하는 경우 80%에 해당하는 무응답자의 행태에 이를 적용할 수

없다. 비록 전체적인 응답률이 높다 하더라도 특히 재산 상태와

같은 민감한 문항에 대해서는 응답률이 떨어지기 마련이다. 이것

역시 표본 선정상의 오차를 유발한다. 넷째, 자료수집에 사용된

표본추출법이 여러 가지 있다고 한다면, 여러 가지 표본에서 수집

된 자료를 비교하는 것은 매우 어렵다. 다섯째, 경제 자료는 총계

자료(예: GDP, 실업률)가 많다. 이 같은 총계자료는, 연구의 궁극

적 대상이 개인적이고 미시적인 단위일 때는 사용하기가 곤란할

것이다. 여섯째, 비밀인 자료는 총계적인 수치만 발표된다. 따라

서 그 자료의 세세한 항목에 대한 차이를 연구한다는 것은 매우

어려운 일이 될 것이다. 예를 들면 안기부의 한 해 예산은 발표되

나 그 세부적 항목은 발표되지 않는다.

이와 같이 자료의 정확성은 연구 결과를 산출해 내는 데 필수

Page 55: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 43 -

적인 것이다. 특히 사회과학의 경우에는 비실험적 자료가 많기 때

문에 사용한 자료가 가장 좋은 자료일 수 없다는 사실을 명심해

야 하며, 분석 결과를 너무 맹신해서는 안 된다.

한편 자료의 측정 수준과 관련하여 회귀분석에 사용되는 변수들

은 적어도 순서변수 이상이어야 한다(Both X and Y are at least

ordinal variable).

좀 더 엄격하게 말한다면 회귀분석에서 변수의 측정 수준은 연속

변수(간격변수 또는 비율변수)이어야 하지만, 사회과학에서는 간격

변수나 비율변수가 많지 않기 때문에 순서변수를 간격변수로 간주

하고 사용하는 것이다.

독립변수인 경우에는 명목변수도 쓸 수가 있으나, 종속변수인 경

우에는 회귀분석에서 순서변수보다 측정 수준이 높은 변수들을 사

용하는 것이 원칙이다.

이 가정을 벗어나는 경우, 곧, 종속변수가 명목변수인 경우에는,

특별한 회귀분석 기법, 예컨대, 프로빗 분석 기법이나 로짓 분석 기

법 등을 사용할 수는 있다.

3) 곧은줄꼴(linearity)의 가정

회귀분석에서는 독립변수 X와 종속변수 Y의 관계를 곧은줄꼴의

관계가 성립한다고 가정한다. X의 자료값과 Y의 자료값 사이에는

곧은줄꼴로 표시할 수 있다는 뜻이다. 곧은줄꼴을 나타내주는 것이

독립변수의 회귀계수값으로 계산된 기울기이다.

곧, Y =a + bX에서 b이다. 독립변수와 종속변수의 관계를 보여

주는 기울기가 ‘상황’에 따라 달라진다면 그것은 곧은줄꼴 관계가

아니라고 할 수 있다.

곧은줄꼴의 가정이 충족될 수 있는가를 살펴보는 가장 편리한 방

법은 독립변수와 종속변수의 관계를 펼친그림(scatter-gram)으로

그려보는 것이다.

Page 56: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 44 -

한편, 회귀모형에서 변수들이 곧은줄꼴의 관계에 있는지는 다음

과 같은 방법으로 검증할 수도 있다.

① 독립변수 X의 자료값들을 원래의 분포를 심하게 왜곡시키지

않는 몇 개의 범주로 나눈다.

② 이 범주를 독립변수로 삼아 한 쪽 분산분석(One-way

ANOVA)을 한다. 그리고 독립변수가 설명하는 종속변수 분산의 정

도를 측정하는 η2(에타 제곱)을 구한다.

③ 원래의 독립변수를 연속 변수로 간주하여 회귀분석을 한다.

그리고 R2 값을 구한다.

만약 X와 Y의 관계가 곧은줄꼴이 아니라면, 자료값들을 변환

(transformation)하여 곧은줄꼴로 만들어 분석하든지, 비선형회귀

분석기법을 사용하여 분석해야 한다.

2. 오차항에 관한 가정

1) 정규성(normality)의 가정

회귀분석에서 오차항은 정규 분포를 따르며, 평균이 0이고 분산

이 일정하다는 것을 가정한다. 이를 수식으로는 다음과 같이 나타

낸다.

ei~N (0, σ2 )

여기에서 물결 표시는 물결 이하처럼 분포되어 있음을 뜻하고,

N은 정규분포를 나타내며 괄호 안은 평균과 분산을 나타낸다.

정규성 가정이 필요한 이유는 다음과 같다.

① 오차항 e는 회귀모형에 구체적으로 포함될 수 없는 수많은

독립변수들의 합이 종속변수에 미치는 영향을 나타낸다. 따라서 이

Page 57: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 45 -

점근적 정규분포의 가정에서는

불편성(unbiasedness) ⟶ 일관성(consistency)

능률성(efficiency) ⟶ 점근적 능률성(asymptotic efficiency)

러한 생략된 혹은 무시된 변수들의 영향은 가능한 적어야 하고, 설

령 있다 하더라도 무작위적이어야 한다.

독립변수들 혹은 동일하게 분포된 무작위 변수들의 수가 많다면,

중심 극한 정리(central limit theorem)에 의해, 약간의 예외를 제

외하면, 이들 변수들의 전체 분포는 이들 변수들이 증가함에 따라

서 정규분포를 이루게 된다.

② 중심 극한 정리에서 나온 또 다른 설명은 다음과 같다. 즉, 변

수의 수가 충분히 많지 않거나 혹은 이들 변수들이 완전히 독립적

이 아니더라도, 이들 변수 전체는 아마도 정규분포를 이룰 것이다.

③ 정규성 가정을 할 때, 보통최소제곱법에 따라 계산된 추정값

들의 확률분포가 쉽사리 나올 수 있다. 나중에 알겠지만 오차항 e

에 대한 정규성 가정 아래에서는 보통최소제곱법에 따라 계산된

추정값들인 b1과 b2는 정규분포가 이루어져 있다.

정규성의 가정은 모집단이나 추정값에도 적용되는데, 실제 이들

이 정규분포인지를 검증하기는 어렵다. 그렇지만, 회귀분석에서는

모집단도, 추정값도, 오차항도 정규분포를 하고 있다는 가정 하에

분석을 한다. 그 이유는 많은 수의 법칙(law of large numbers)에

근거한다.

많은 수의 법칙이란 동전을 10번 던질 때 앞과 뒤가 나올 확률이

50:50이 되기는 어렵지만, 수만 번 던지게 되면 그 확률이 거의

50:50에 근접할 것이다.

분포에서도 이 법칙이 적용되므로 무작위로 추출한 표본의 수가

Page 58: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 46 -

Y

*

* * 회귀선

* * * *

* * * * * *

* * * * *

* * * * *

a * *

X

<그림 8> 같게퍼짐(homoscedasticity)

커지면 점근적(asymptotic)으로 정규분포가 된다.

점근적인 정규분포의 가정 하에서는 불편성(unbiasedness)의 개

념이 일관성(consistency)의 개념으로 교체된다. 일관성의 개념이

란 확률적으로 추정값이 모수에 점점 가까워진다는 뜻이다. 그리고

능률성(efficiency) 역시 점근적 능률성(asymptotic efficiency)이

라는 개념으로 교체된다.

2) 같게퍼짐(homoscedasticity: 등분산성)의 가정

회귀분석에서는 찌꺼기들(residuals)이 서로 독립적이고 어느 정

도 같게 퍼져 있음을 가정한다. 곧, 오차의 분산이 일정한 상태로

이루어짐을 가정한다.

좀 더 쉬운 말로 표현한다면 같게퍼짐의 가정은 두 변수를 대표

하는 직선(회귀선)을 그었을 때 독립변수의 어떤 지점에서도 종속

변수의 흩어진 정도가 같아야 한다는 가정이다. 곧, 오차항의 분산

은 동일하다는 가정이다(<그림 8> 참조).

그러나 찌꺼기들이

이러한 가정에서 벗어

나 달리 퍼져 있을 때,

곧, 독립변수가 변함에

따라 종속변수 값들의

흩어지는 폭이 넓어지

거나 좁아지는 경향이

있을 때를 달리퍼짐

(heteroscedasticity:

이분산성)이라 한다

(<그림 9> 참조).

이 경우에는 추정된

회귀계수값은 그대로이

Page 59: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 47 -

Y

* * * * * * * * * * 회귀선 * * * * * * * * * * * ** * * * * * * * * * * * * * a * * X

<그림 9> 달리퍼짐(heteroscedasticity)

나, 추정의 정확성이 떨

어져 회귀계수값의 통계

적 의미가 약화되고, 이

회귀계수값이 실제 관찰

값들을 제대로 나타내준

다고 보기는 어렵다. 곧,

능률성(efficiency)에 문

제가 생긴다.

같게퍼짐의 가정이 어

긋나는 경우, 상관분석

에서는 두 변수 사이에

상관이 없다는 해석을 하기보다는 독립변수 X의 값이 변함에 따라

종속변수 Y의 값에 어떠한 변화 경향이 있는지를 언급하는 것이 좋

다.

그러나 회귀분석에서는 회귀계수값에 문제가 생기므로 변수를 변

환시키는 방법 등을 사용하여야 한다. 이는 다음의 넷째갈래에서

논의하므로 여기에서는 생략한다.

3) 여러줄꼴(multicollinearity)에 관한 가정

여러 변수 회귀분석에서는 독립변수들끼리의 관계와 종속변수와

의 관계에 관한 가정으로서 여러줄꼴에 관한 가정이 있다. 이는 여

러 변수 회귀분석에서 독립변수들이 서로 밀접하게 관련되어 있지

않다는 가정이다. 여러줄꼴이란 말은 아주 밀접한 관계에 있는 독

립변수들을 하나의 회귀식에서 사용하게 되면, 각각의 독립변수들

과 종속변수의 관계를 나타내는 곧은줄꼴이 서로 거의 겹치며 나

타난다는 점에서 여러줄꼴(multicollinearity)라는 말을 쓴다.7)

7) 여러줄꼴(multicollinearity) 현상은 서로 거의 겹치어 나타나기 때문에

엄격히 말한다면 ‘여러겹친줄꼴’로 번역할 수 있겠으나, 여기에서는 복

Page 60: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 48 -

만약 독립변수들이 아주 밀접하게 관련되어 있으면, 추정되는 회

귀계수값이 그 독립변수의 독자적인 영향을 제대로 보여주지 못하

기 때문이다.

보기를 통해 독립변수들이 밀접한 관계에 있으면 회귀계수값이

어떻게 변하는지를 살펴보자. 여러 변수 회귀식 가운데 서로 상관

성이 아주 높은 두 개의 독립변수를 가진 회귀식을 상정해보자. 우

선 회귀식은 다음과 같이 나타낼 수 있다.

Y = a + b1X1 + b2X2 +e

이때 독립변수 X1과 X2가 거의 1에 가까운 상관관계(예컨대,

r=0.99)를 가지고 있다고 가정해보자. X1 ≒ X2이므로 이 식은 다

음과 같이 고쳐 쓸 수 있을 것이다.

Y = a + b1X1 + b2X1+e

∴ Y = a + (b1 + b2)X1 +e

결과는 두 독립변수가 아주 밀접한 관계가 있는 데도 불구하고

두 변수를 독립변수로 사용한 경우 나타나는 회귀계수값 b1은 축소

되어 나타나고 있음을 보여준다. 곧, 원래 회귀식에서의 b값과 불필

요한 X2를 독립변수에서 빼버리고 구한 회귀식의 b값이 서로 달라

진다는 것을 알 수 있다. 좀 더 정확히 말하면 관계가 아주 밀접한

두 개의 독립변수를 집어넣은 회귀식에서 추정한 b값은 ‘b1’으로 추

정되나 그 가운데 하나(예컨대, X2)를 빼버린 회귀식에서 추정한 b

값은 ‘b1 + b2’임을 보여준다.

결과적으로 볼 때, 서로 밀접한 관계에 있는 독립변수들이 회귀

잡한 용어보다는 단순한 용어가 학술 용어로 좋다는 생각에서 ‘여러줄

꼴’로 사용한다. 이 말을 통계학계에서는 다공선성, 다중공선성이라고

번역하여 쓰지만, 이보다는 여러줄꼴로 번역하는 것이 훨씬 이해하기

가 쉽기 때문이다.

Page 61: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 49 -

X1

rx1y

rx1x2 Y

rx2y

X2

<그림 10> 여러줄꼴의 문제:

rx1x2>rx1y 또는 rx1x2>rx2y

식에 들어가게 되면 불필요한 변수가 하나 더 들어가 있는 것과 마

찬가지인 까닭에 변수 선정의 오류를 범하게 된다. 곧, 불필요한 변

수(예컨대, X2)를 빼고 추정한 회귀계수 추정값 b는 ‘b1 + b2’가 되

어야 하는데, ‘b1’으로 왜곡 추정되는 꼴이다.

이와 같이 독립변수의 영향을 제대로 보여주지 못하는 까닭에 회

귀분석에서는 “독립변수들간의 관계가 아주 밀접해서는 안 된다.”

고 가정하는데, 이것이 여러줄꼴에 대한 기본 가정이다.

그렇지만 독립변수들끼리는 아무리 독립적이라 하더라도 관계가

전혀 없을 수는 없다. 따라서 여러줄꼴의 문제는 정도의 문제이지

존재의 문제가 아니다.

흔히 문제가 되는 것은 보통 독립변수들의 관계가 .8 이상인 경

우이다.

그러나 엄격히 말하면, 독립변수들의 관계가 .8 이하라 하더라도

독립변수와 종속변수의 관계보다 작아야 한다. 쉽게 말해서 독립변

수들의 관계가 종속변수와의 관계보다 더 강하다면, 독립변수가 종

속변수에 미치는 영향을 제대

로 찾아내기 어렵다고 이해할

수 있다.

이는 <그림 10>에서 볼 수

있듯이 독립변수 X1과 X2의 관

계(rx1x2)가 독립변수 X1과 Y와

의 관계(rx1y)나 X2와 Y와의 관

계(rx2y)보다 높다면 이 가정에

어긋난 것이다. 따라서 <그림

10>에서 여러줄꼴에 관한 가정

을 만족시키려면, rx1x2<rx1y 및

rx1x2<rx2y이 성립되어야 한다.

여러줄꼴의 문제는 회귀모

Page 62: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 50 -

형의 설정에서 기인되는 것이라기보다는 자료상의 문제에서 야기된

다고 볼 수 있다. 다시 말해서 이론상으로는 결함이 없으나 자료상

으로 밀접한 관련이 있는 경우 어쩔 수 없이 나타나는 문제라 할

수 있다.

4) 독립변수와 오차항과의 독립성 가정

이 가정은 독립변수는 오차항과 관련이 없다는 가정이다(Xs are

not correlated with error terms). 이를 통계학적으로 표현하면,

Cov(ei, Xi)=0

인데, ei와 Xi사이의 공분산은 0임을 뜻한다. 곧, 오차항 e와 설명

변수 X가 상관되어 있지 않다는 것을 의미한다. 그러나 만약 X와

e가 상관되어 있다고 한다면, Y에 대한 각각의 영향을 분석하는

것은 불가능할 것이다. 왜냐하면 독립변수 X가 오차항 e와 관련이

있다면, 오차항 e의 영향을 받아 b값이 편의(biased)될 것이기 때

문이다.

이는 여러줄꼴의 문제점과 같은 관점에서 쉽게 이해할 수 있다.

다시 말해서 여러줄꼴의 문제점은 독립변수 X와 다른 독립변수 X

와의 밀접한 관계가 문제가 되는 것이지만, 독립변수와 오차항의

독립성 문제는 독립변수 X와 오차항 e가 서로 관계를 띠기 때문에

발생하는 것이다.

단순화된 회귀모형 Y= a +bX +e를 좀 더 풀어서 쓴다면,

Y = a + b1X1 + b2X2 +ㆍㆍㆍㆍ + bnXn + e1 + e2 +ㆍㆍㆍㆍ + em

으로 표현할 수 있다. 여기에서 Y에 영향을 미치는 것들은 X1, X2

ㆍㆍㆍㆍ Xn 뿐만 아니라, e1, e2ㆍㆍㆍㆍ em 등도 있다. 오차항에 속하는

e1, e2ㆍㆍㆍㆍ em 변수들은 우리가 모르고 있을 뿐이지 Y에 영향을 미

Page 63: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 51 -

친다는 점에서는 또 다른 독립변수로 볼 수 있을 것이다.

여러줄꼴의 문제점이 독립변수들 사이의 관계가 종속변수와의 관

계보다 크기 때문에 나타나는 문제라고 볼 때, 독립변수 X들과 오

차항 e들 사이에도 밀접한 관계가 있으면 여러줄꼴의 문제점과 같

은 증상이 나타날 것은 미루어 짐작할 수 있을 것이다.

5) 오차항끼리의 독립성 가정(no serial correlation)

오차항끼리는 자동상관관계가 없다는 가정이다. 곧, 오차항들은

독립적이어야 한다. 곧,

Cov(ei, ej)=0

다시 말해 어느 한 기간에 오차항이 취하는 값(ei)은 다른 기간

에 취했던 값(ej)과 관련되어 있지 않다는 것을 말해준다.

만약 이 가정이 어긋난다는 것은, 단순하게 생각해서, 관찰값들

끼리 서로 관련되어 있다는 것을 뜻한다. 이 경우, 능률성

(efficiency)에 문제가 생긴다. 예를 들어 설명해 보면, 모집단 회

귀함수가

Yt= a + b1Xt + et + et-1

라고 할 때, et와 et-1이 상관관계를 가지고 있다고 하면, Yt는

Xt에 의존할 뿐만 아니라 et-1에도 의존하고 있다. 왜냐하면

et-1은 et를 어느 정도까지 결정하기 때문이다. 이렇다고 한다면

독립변수의 종속변수에 대한 설명력에는 문제가 생길 것이다.

Page 64: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 52 -

셋째 갈래: 회귀모형의 문제점과 대책 I

변수와 관련된 문제

1. 변수 선정의 오류 문제

회귀모형을 구성하기 위해 독립변수를 선정할 때 변수 선정의

오류(specification error)를 범해서는 안 된다. 변수 선정의 오류

란 ① 회귀모형에 반드시 들어가야 할 변수가 빠지는 경우와 ②

불필요한 변수가 회귀모형에 포함되는 경우를 말한다.

여기에서 반드시 들어가야 할 변수와 불필요한 변수라 함은 이

론적으로 볼 때 인과관계와 관련된 것이다. 예컨대, 불필요한 변수

란 독립변수와 종속변수의 관계가 이론적으로나 상식적으로 볼 때

인과관계로 성립될 수 없는 경우를 말한다. 곧, 현상만 판단할 때

에는 이들이 인과관계에 있는 듯하나, 사실은 거짓관계

(spuriousness)인 경우이다.

그러면, 꼭 필요한 변수가 빠지는 경우와 불필요한 변수가 포함

되는 경우를 각각 나누어 회귀모형에 어떠한 영향을 끼치는지를

알아보자.

1) 꼭 필요한 변수가 빠지는 경우

변수 선정이 제대로 된 올바른 회귀모형과 반드시 포함되어야

할 변수가 빠지는 경우 나타나는 잘못된 회귀모형을 수식으로 표

현하면 다음과 같다.

Page 65: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 53 -

Y = a + b1X1 + b2X2 + e -------- 올바른 모형

Y = a + b1*X1 + e* -------- 잘못된 모형

여기에서 올바른 모형의 b1과 b2 따위를 사용하여 b1*을 구하면

이들의 관계는 다음과 같이 계산된다.

∑X1iYi

b1* = ---------

∑X1i2

올바른 모형의 회귀식에 의해 Yi를 대치시켜 풀게 되면,

∑X1ib1X1i + ∑X1ib2X2i + ∑X1iei

b1* = -------------------------------

∑X1i2

b1∑X1i2 + b2∑X1iX2i + ∑X1iei

b1* = -------------------------------

∑X1i2

∑X1iX2i ∑X1iei

b1* = b1 + b2-------- + -------

∑X1i2 ∑X1i

2

∑X1iX2i Cov(X1,X2)E(b1

*) = b1 + b2-------- = b1 + b2---------- ∑X1i

2 Var(X1)

Cov(X1,X2)b1

* = b1 + b2------------ Var(X1)

따라서 추정값 b1*의 값은 X1과 X2의 관계에 의하여 영향을 받

게 된다. 예컨대, 만약 이 두 변수(모형에 포함된 변수와 모형에서

빠진 변수)의 상관관계가 높고, b2의 값이 b1과는 다른 부호를 가

진다면, b1*의 값뿐만 아니라 그 부호조차도 바뀔 수 있다.

Page 66: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 54 -

이 경우 찾아내려고 했던 참값 b1이 잘못된 값 b1*으로 나타나

기 때문에 X1과 Y의 관계를 나타내 주지 못하고 왜곡시키는 비극

적 결과를 초래하게 된다.

이와 같이 필요한 변수를 빼놓고 회귀분석을 하는 경우 문제점

은 계수값이 편의(biased)될 가능성이 높고, 불일치

(inconsistency)하게 된다.

이와 같은 이유 때문에 회귀모형을 만들기 위하여 변수를 선정

할 때 이론적으로 중요한 변수는 반드시 모형 속에 포함시켜 검증

해야 한다.

2) 필요 없는 변수가 들어가는 경우

변수 선정이 제대로 된 올바른 회귀모형과 불필요한 변수가 포

함된 잘못된 회귀모형을 수식으로 나타내면 다음과 같다.

Y = a + b1X1 + e -------- 올바른 모형

Y = a + b1*X1 + b2

*X2 + e* -------- 잘못된 모형

여기에서 부적절한 변수 X2가 모형에 첨가되었다는 사실은 b2* =

0이 아니라는 것을 의미한다. 만약 b2* = 0이라면 그것은 올바른

모형과 다름이 없을 것이기 때문이다. 이때 b1*값을 구해 보면,

(∑X2i2)(∑X1iYi) - (∑X1iX2i)(X2iYi)

b1* = ---------------------------------

(∑X1i2)(∑X2i

2) - (∑X1iX2i)2

올바른 모형의 회귀식에 의해 Yi를 대치시켜 풀게 되면,

(∑X2i2)(∑X1iei) - (∑X1iX2i)(X2iei)

b1* = b1 + -------------------------------

(∑X1i2)(∑X2i

2) - (∑X1iX2i)2

X1과 X2의 기대값이 고정되어 있다(fixed)고 가정하므로

Page 67: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 55 -

E(b1

*) = b1

따라서 부적절한 변수가 포함되는 경우 잘못된 모형에서 나타나

는 계수추정값 b1*이 편의(biased)되지는 않는다. 왜냐하면, 잘못된

모형에서 나타나는 b1*의 기대값이 올바른 모형에서 보여주는 b1값

과 같은 까닭이다. 다른 말로 하면, 이는 잘못된 모형에서 나타나는

X2의 계수값 b2*가 0이라는 기대값을 가질 것이라는 의미이다. 이

론적으로 볼 때, 부적절한 변수 X2는 말 그대로 부적절한 변수이기

때문에 Y와의 관계를 나타내는 X2의 계수값 b2*는 계산을 하지 않

더라도 0일 것이다.

이론적으로나 계산적으로는 그러하지만, 부적절한 변수의 계수값

이 0으로 나타나는 일은 거의 없다. 왜냐하면, 이론적으로 볼 때 변

수들 사이에 전혀 관계가 없다 하더라도 이들의 실제 자료값들 사

이에서는 일정한 관계가 나타날 수밖에 없는 까닭이다.

이러한 관계는 거짓관계(spurious relation)이지 실제적인 인과

관계는 아니다. 따라서 부적절한 변수가 포함된다 하더라도 그 계

수값 b2*가 0이 아닌 것으로 나타나는 것이 보통이다.

따라서 부적절한 변수가 회귀모형에 포함되는 경우, 최소제곱 추

정값(least square estimator)의 능률성(efficiency)에 문제가 생긴

다. 왜냐하면 잘못된 모형에서의 추정된 계수값 b1*의 변량이, 일반

적으로 볼 때, 올바른 모형에서의 계수값 b1보다도 커질 가능성이

높은 까닭이다(Kmenta, 1971: 396-399 참조). 만약 X1과 X2의 상

관관계가 0인 특수한 경우에는 물론 능률성의 문제는 생기지 않을

것이지만, 현실적으로 볼 때 이러한 경우는 거의 없다고 볼 수 있

다. 따라서 능률성의 손실은 계수값 b1이 0라는 영가설을 기각시키

Page 68: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 56 -

지 못하도록 작용할 것이다.

3) 안곧은줄꼴(non-linearity)인 경우: 잘못된 회귀모형 형태

변수 선정에서 나타나는 또 다른 문제는 올바른 회귀모형에서의

설명변수들이 곧은줄꼴이 아닌 데도 불구하고 곧은줄꼴 회귀모형

으로 추정하는 경우 나타난다. 이 경우 나타나는 변수 선정의 오

류를 제곱꼴의 회귀모형을 통해 살펴보자.

Y = b1X + b2X2 + e -------- 올바른 모형

Y = b1*X + e* -------- 잘못된 모형

여기에서 잘못된 모형은 앞에서 설명한 반드시 포함되어야 할

변수가 빠진 모형의 특별한 꼴이라 할 수 있다. 이 말은 올바른

모형이 곧은줄꼴이 아닌데도 불구하고 곧은줄꼴의 회귀모형을 선

택하는 경우 계수추정값이 편의되고 불일치할 것이라는 점을 시사

한다.

4) 해결 방법

회귀모형의 설정에서 문제는 꼭 들어가야 할 변수와 불필요한

변수를 찾아내기가 어렵다는 점이다. 또한 꼭 들어가야 할 변수를

안다고 하더라도 충분하고도 정확한 자료를 이용할 수 없는 경우

도 있고, 이 경우 대리변수를 사용하게 된다.8) 그러나 이 경우 그

만큼 분석이나 해석상에 한계를 띠게 된다.

8) 예를 든다면, 노동조합의 정치적 활동에 미친 영향을 분석하기 위해

꼭 들어가야 할 변수로서 국가의 사회복지 지향성을 독립변수로 잡을

수 있다. 그러나 이를 나타내 주는 계량적 자료가 없기 때문에 매년

사용되는 사회보장비를 국가의 사회복지지향성을 보여 주는 지표로 삼

아 대리변수로 사용하는 경우를 들 수 있다. 또한 국가의 통제 정도를

나타내주는 지표로서 정치규제법 하에서 검거된 인원수를 자료로 사용

하는 경우도 마찬가지이다.

Page 69: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 57 -

회귀모형에 집어넣을 독립변수들에 대해서 확신이 가지 않을 때

에는 어떻게 회귀모형을 만들 것인가? 이에 관한 전략들은 다음과

같다.

① 모형에 포함되어야 하지만 포함되지 않는 경우 치러야 할 대

가는 편의(bias)와 불일치성(inconsistency)이다. 반대로 부적절한

변수가 포함되는 경우 능률성(efficiency)의 상실이 나타난다.

② 만약 사용할 수 있는 관찰값들이 많은 경우에는 부적절한 변

수들을 첨가하더라도 큰 문제는 생기지 않을 것이다. 왜냐하면, 이

때에는 여러 개의 독립변수가 첨가되는 까닭에 자유도(degree of

freedom)가 감소하긴 하지만 능률성의 문제가 심각하진 않을 것

이기 때문이다.

그러나 관찰값들이 많지 않은 경우에는 능률성의 상실이 심각한

문제로 대두되는 까닭에 필요한 변수가 빠질지 모르더라도 첨가하

지 않는 편이 좋을 것이다.

③ 만약 잠재적 변수들만을 알고 있다면, 우리의 목적에 따라서

편의와 능률성의 상쇄관계라는 점에서 모형을 선택하여야 할 것이

다.

④ 일반적으로 볼 때, 부적절한 변수들이 모형에 포함되었는지

여부를 파악하는 것이 어려운 일은 아니다. 왜냐하면, 부적절한 변

수들의 계수값은 0이 될 것이 예상되므로 개별적인 변수들의 적절

성(relevancy)을 평가하기 위하여는 t검증(standard t test)을, 변

수들 집단의 적절성을 평가하기 위해서는 F검증을 단순히 적용할

수 있는 까닭이다.

그러나 이는 통계상으로 그렇다는 것이지 이론적으로 문제가 될

수 없다는 것은 아니다. 왜냐하면 두 변수의 관계가 거짓관계일수

도 있는 까닭이다.

Page 70: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 58 -

2. 변수의 측정에 관한 문제

회귀분석에서 나타나는 문제점들은 회귀분석의 기본 가정을 충

족시키지 못하는 경우에 나타난다. 예컨대, 회귀분석에서는 곧은

줄꼴을 가정하여 회귀계수값을 구하는 까닭에 사용되는 변수들의

속성에 관해 관찰값들의 측정 오차가 없어야 하며, 변수들의 측정

수준 역시 적어도 순서변수 이상이어야 한다는 조건을 만족시켜야

한다.

문제는 사회과학의 경우, 이러한 조건을 충족시키지 못하는 경

우가 아주 많다. 따라서 이 경우 통계상의 문제가 나타나게 되는

데, 이에 관하여 어떤 문제가 나타나며 어떻게 해결해야 할 것인

지를 알아보자.

(1) 측정값들의 오류에 관한 문제

회귀분석에서는 변수를 선정한 후 자료를 모은 과정에서 측정값

들이 오차가 없어야 하는데, 만약 오차가 생기면 회귀계수값 b에

영향을 미치게 되어 b값을 믿을 수 없게 될 것은 자명한 일이다.

이는 측정 오차가 없어야 한다(no measurement error)는 기본

가정을 벗어나기 때문에 생기는 문제점이다. 따라서 회귀분석에서

는 독립변수나 종속변수의 자료값들에 관한 정확한 자료가 요구된

다.

문제는 정확한 자료값을 가지는 독립변수들을 확보하기가 어렵다

는 점이다. 정확한 측정값을 가진 자료들을 사용하지 못하면 당연

히 그 분석 결과 역시 믿을 수 없게 된다. 그렇다고 정확한 관찰값

을 가진 독립변수만 회귀모형에 넣게 되면, 역시 b값이 편의되고

(biased), 불일치(inconsistency) 가능성이 높아진다는 문제가 생긴

다. 다시 말해서 변수를 너무 한정하다 보면, 다음에 말하는 변수

Page 71: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 59 -

선정의 오류가 생기게 되어 통계상의 문제가 발생한다.

2) 측정 수준의 문제

한편, 회귀모형에서 독립변수와 종속변수는 적어도 측정 수준이

순서변수 이상이어야 한다(Both X and Y are at least ordi-

nal variable).

회귀분석에는 독립변수와 종속변수의 관계를 곧은줄꼴로 나타내

기 때문에 독립변수의 변화에 따라 종속변수의 변화를 나타내주려

면 변수값들의 측정 수준이 원칙적으로는 간격 척도나 비율 척도

로 측정되어야 하지만, 사회과학에서는 간격변수나 비율변수가 많

지 않은 까닭에 순서변수를 간격변수로 의제하여 사용하는 경우가

흔하다.

그러나 명목변수를 독립변수로, 때로는 종속변수에서도 사용하여

야만 되는 경우가 있다. 종속변수에 명목 수준에서 측정한 자료값

을 사용하는 경우에는 곧은줄꼴의 회귀분석은 불가능하다.

3) 해결 방법

회귀분석에서 변수의 속성에 관한 문제를 해결하는 데에는 특별

한 방법이 없다.

우선, 독립변수와 종속변수의 자료값을 측정할 때 오류가 없는

정확한 자료를 획득해야 할 것이 요구된다. 표본의 수를 늘리든가,

표본추출방법 등을 점검하여 이러한 데서 나오는 오류를 최소화시

켜야 한다. 또한 분석 결과를 너무 맹신하는 교조주의적 태도는 지

양해야 한다.

종속변수를 명목변수로 하는 경우, 회귀분석의 특별한 형태라 할

수 있는 프로빗분석(probit analysis)이나 로짓분석(logistic analy-

sis)을 하면 된다. 또는 연구 목적에 따라 판별분석을 할 수도 있다.

독립변수에서 명목변수를 사용하는 경우에는 0과 1의 값을 가진

Page 72: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 60 -

가변수들을 사용하여 회귀분석모형을 만들어 분석하면 되고, 분석

결과는 그 차이를 나타내는 것으로 해석하면 된다. 예컨대, 임금 수

준을 결정하는 요인에 학력, 성별, 직종 등 여러 가지 변수들이 있

을 것이다. 명목변수인 성별의 경우, 여자=0, 남자=1의 가변수를

만들어 회귀모형에 넣어 분석한 결과는 다른 모든 조건이 일정할

경우, 남자의 임금이 여자의 임금보다 얼마나 차이가 있는가로 해

석하면 된다.

Page 73: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 61 -

Y * A

* * *

* * * * * B

* * *

* * * * * *o

a * **

X

<그림 11> 삐진자(o)와 회귀선: 삐진자

때문에 회귀선이 B로 나타나나, 삐

진자를 빼고 구하면 A가 된다.

넷째 갈래: 회귀모형의 문제점과 대책 II

오차항과 관련된 문제

1. 삐진자의 문제

1) 삐진자(outlier)의 의미와 발견 방법

삐진자란 어떤 독립변수에 대하여 종속변수의 변수값이 정상 범

위 밖으로 떨어져 나간 사례를 말한다(<그림 11> 참조). 이는 회귀

식을 추정하는 데 매우 강력한 영향을 미친다.

삐진자의 검색은 찌꺼기(residuals)들의 펼친그림을 통해 찾아낼

수 있다. 또는 각 변수들

의 뒤틀림(skewness)이나

표준화점수 z를 확인해보

는 방법도 있고, 통계적으

로는 마하라노비스

(Maharanobis)의 거리나

쿡(Cook)의 값을 가지고,

또는 지레값(Leverage

value)을 가지고 판단할

수도 있다.

① 관찰값에 관한 펼친

그림을 이용하는 방법은

<그림 11>에서 쉽게 확인

Page 74: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 62 -

할 수 있다. 곧, <그림 11>에서 o가 삐진 값이다.

이 펼친그림의 관찰값들을 모두 가지고 회귀선을 구하면 B로 나

타나나, 삐진자를 빼고 구하면 A가 된다. 좀 더 나아가 찌꺼기들의

펼친그림에서는 관찰값과 예측값의 차이를 정상확률곡선을 통해 파

악함으로써 삐진자를 찾아낼 수 있다.

② 마하라노비스(Maharanobis)의 거리는 단순회귀에서 독립변수

의 평균으로부터 각 관찰값들의 거리를 표준화시킨 값이다. 이 값

이 크면 클수록 독립변수 관찰값들의 분포에서 멀리 떨어져 있으므

로 삐진자를 쉽게 찾아낼 수 있다.

③ 쿡(Cook)의 값은 영향이 있다고 생각되는 관찰값을 제외하였

을 때 찌꺼기의 변화를 보여주므로 종속변수에 영향을 크게 미치는

사례를 찾아낼 수 있다.

일반적으로 말하면, 쿡(Cook)의 값이 크면 클수록 삐진자일 가능

성이 많다. 대체로 쿡의 값이 1보다 크면 삐진자일 가능성이 높은

데, 이때 통계적 유의도가 p<0.05 이하이면 삐진자로 판단한다.

④ 지레값(Leverage value)은 예외적인 사례가 어느 정도나 회

귀의 예측에 영향을 주는가를 보여주는 또 다른 지수로, 이 역시 값

이 클수록 삐진자로 판단한다.

2) 삐진자가 나타나는 이유 및 해결 방법

삐진자가 나타나는 이유는

① 부정확한 자료를 사용하거나 입력을 잘못하였을 경우가 있을

수 있다.

② 표본 추출과정에서 대표성 있는 표본을 추출하지 못하고 극단

적인 사례가 뽑힌 경우도 있을 수 있다.

③ 모집단이 정규분포 가정을 충족시키지 못하는 경우에도 삐진

자가 나타날 수 있다.

④ 이 이외에도 빠진 값(missing value)을 잘못 처리하였을 경우,

Page 75: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 63 -

곧, 컴퓨터 프로그램을 돌릴 때 변수의 조작 과정에서 빠진 값을 제

대로 규정하지 못하여 이것이 실제로 읽혀지는 경우가 있다.

그 해결방법으로는

① 부정확한 자료를 사용하거나 입력을 잘못한 경우에는 자료를

재점검하고 정정하여야 할 것이다.

② 삐진자의 값이 가지는 의미를 신중히 고려하여 믿을 수 없는

값이면 제거하는 것이 좋다. 또는 극단적인 사례를 제외시키고 회

귀식을 구할 수 있다. 물론 이때에는 극단적인 사례가 제거되었음

을 해석할 때 논의하여야 할 것이다. 이때 이론적 검토가 필요함은

당연하다.

만약 좀 더 엄격하게 연구를 진행하여야 한다면, 삐진자를 제외

한 회귀모형과 삐진자를 포함한 회귀모형을 추정하여 이들 모두를

제시하는 것이 좋다. 삐진자 역시 정보를 가지고 있는 자료 중의 하

나이며, 회귀모형의 적합도를 높이기 위해 제외하더라도 왜 이 관

찰값이 다른 관찰값들에 견주어 종속변수의 값에 어떤 영향을 미치

는지에 관한 정보를 연구 결과나 결정짓기에 반영할 필요가 있기

때문이다.

③ 모집단이 정규분포 가정을 충족시키지 못하는 경우에는 자료

값을 변환하여 분석하는 방법이 있다.

④ 빠진 값을 잘못 처리하였을 경우에는 컴퓨터 프로그램에서 빠

진 값들을 제대로 규정하였는지를 점검할 필요가 있다.

2. 달리퍼짐의 문제

1) 달리퍼짐(heteroscedasticity)의 문제를 찾아내는 방법

달리퍼짐의 문제는 같게퍼짐(homoscedasticity)의 가정에서 벗

Page 76: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 64 -

Y

* * * * * * * * ** * 회귀선 * * * * * * * * * * * * ** * * * * * ** * * * * * * * * * * * * * * * * * * * * * * * a * * X

<그림 12> 달리퍼짐(heteroscedasticity)

어나는 경우 생기는 문

제이다. 이때에는 회귀

계수값의 통계적인 의미

가 상실된다.

<그림 12>는 달리퍼

짐을 나타내준다. 곧, X

값이 증가함에 따라 Y

값은 아래위로 폭이 넓

어진다. 따라서 회귀계

수값은 그대로이지만,

이 회귀선이 자료값들을

대표한다고 보기 어렵

다.

예를 들면, X를 소득이라 하고 Y를 소비라 하면, 소득이 많을수

록 소비가 증가하는 것은 보여주지만, 소득이 많아지면 소비의 폭

이 너무 넓게 나타난다. 이때 소득이 높은 사람들 중 도시에 사는

사람은 농촌에 사는 사람들보다 소비가 많이 나타날 것이다. 따라

서 달리퍼짐의 문제가 발생하게 된다.

이때 오차항은 측정할 수 없으므로 오차항에 대한 추정값이 필요

한데, 이 추정값은 관찰값에서 회귀선에서 제시하는 값과의 차이를

구함으로써 이루어진다. 따라서 이 추정값을 찌꺼기(residuals)라

한다. 이 경우 찌꺼기를 가지고 펼친그림을 그려보면 오차항의 분

산이 일정하지 않음을 알 수 있다.

따라서 찌꺼기들을 가지고 펼친그림을 그려보면 찌꺼기들의 분포

를 알 수 있으므로 이를 확인하면 달리퍼짐의 문제가 있는지 없는

지를 판별해낼 수 있다.

아래 <그림 13>에서 (a)는 찌꺼기들이 무작위적으로 일정하게

분포되어 있으므로 같게퍼짐의 가정을 충족시키고 있다고 볼 수 있

Page 77: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 65 -

* * * * * * * * * * * * * *

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

(a)

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

(b)

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * ** *

(c)

* * * * * * * * * * * * * * * * * * * * * * * * * * * * *

(d)<그림 13> 찌꺼기들의

분포

고, (b)는 찌꺼기들이 달리퍼짐의 상태

를 나타내므로 같게퍼짐의 가정에서 벗

어난 상태로서 문제가 있다고 판단하여

야 하며, (c) 역시 같게퍼짐의 가정에서

벗어난 상태로서 새로운 설명변수가 필

요함을 시사하고, (d)는 찌꺼기가 포물

선의 형태를 띠면서 분포하는 까닭에

역시 같게퍼짐의 가정에서 벗어난 상태

로서 설명변수의 이차항이 필요함을 시

사한다.

2) 달리퍼짐의 해결 방법

① <그림 13>에서 (b)의 경우에는

이론적 검토를 통해 달리퍼짐이 나타나

는 이유를 찾아내어 설명변수를 보충하

거나 회귀모형을 수정하여 이 문제를

해결할 수 있다.

앞에서 제시한 소득과 소비의 예에서

나타나는 달리퍼짐의 문제는 도시와 농

촌의 소비 행태가 다르다는 이론에 따

라 도시와 농촌으로 나누어 소득과 소

비의 관계를 구하거나, 도시와 농촌을

또 다른 설명변수로 잡아 회귀모형에

넣어 통제하는 방법이 있다. 앞의 경우,

도시와 농촌의 두 가지 회귀선이 구해

지며, 이들 각각을 해석하는 방식이다.

② <그림 13>에서 (c)의 경우에는

새로운 설명변수를 찾아내어 회귀모형

Page 78: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 66 -

에 첨가하여야 한다.

③ 찌꺼기들이 <그림 13>의 (d)와 같은 형태를 보인다면, 설명변

수의 이차항이 필요하다고 판단할 수 있다. 곧 X2 등의 변수가 필요

하다고 볼 수 있다.

그러나 X와 X2의 두 변수가 들어가게 되면, 비록 회귀계수값들이

모두 통계적으로 유의하고 찌꺼기들의 달리퍼짐 현상이 없어진다

하더라도, 심각한 여러줄꼴의 문제가 발생할 가능성이 높다.

이 경우 설명변수를 표준화하여 사용하면 심각한 여러줄꼴의 문

제를 어느 정도 해결할 수 있다.

④ 증가하는 오차의 분산을 제거하기 위하여 변수를 변환시키는

방법도 있다. 예컨대, 종속변수 Y를 독립변수 X로 나눈 값들 Y/X를

새로운 종속변수로 삼고, 1/X를 독립변수로 삼아 회귀식을 구하는

방식이 그러하다. 한편 종속변수를 변환하는 방법도 있는데, 그 방

법으로는 log를 취하여 변환하는 것이 일반적이다.

④ 가중된 최소제곱법(Weighted Least Square Method: WLS)

을 사용하여 해결하기도 하는데, 이 방법은 찌꺼기의 분포가 부채

꼴 모양의 형태를 띤 (d)의 경우에만 유효하다.

3. 여러줄꼴의 문제

1) 여러줄꼴(multicollinearity)의 문제의 식별 방법

여러줄꼴의 문제는 독립변수와 독립변수의 관계가 아주 밀접해

서는 안 된다는 가정을 벗어난 경우에 문제가 된다. 회귀분석의 기

본 가정에서 논의했듯이 이 문제는 정도의 문제이지 존재의 문제는

아니다. 어떤 경우에 여러줄꼴의 문제가 심각한 것인지를 판단하기

위해서는 다음과 같은 방법을 사용할 수 있다.

Page 79: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 67 -

2) 여러줄꼴의 문제를 찾아내는 방법

여러줄꼴이 문제가 되는 경우는 대체로 다음과 같은 경우에 찾아

낼 수 있다.

① 독립변수들의 상관관계가 .8이상인 경우: rx1x2>.8

② 독립변수들끼리의 상관관계가 종속변수와의 상관관계보다 높

은 경우: rx1x2>rx1y 또는 rx1x2>rx2y

③ 찌꺼기(residual) 분산의 값이 0이거나 0에 근접해 있는 경

우(또는 회귀계수값의 표준오차값이 매우 큰 경우): 단계적 회귀분

석에서는 각 단계에서 다른 독립변수들의 영향력을 감안한 후 나

중에 포함시킨 변수의 찌꺼기 분산을 계산해주는데, 허용되는 분

산은 보통 0.01(default)로 맞추어져 있는데 이 허용값보다 분산이

작으면 독립변수는 회귀식에서 빠지도록 되어 있다. 찌꺼기

(residual) 분산의 값이 0에 근접할수록 회귀계수의 표준오차는

커지게 된다. 따라서 회귀계수의 표준오차값이 매우 큰 경우 여러

줄꼴의 문제를 의심해 볼 수 있다.

④ 회귀모형이 이론적으로 적절하게 설정되었음에도 불구하고,

회귀계수값의 부호가 예측과는 정반대로 나타났을 때

⑤ 표준화된 회귀계수값(Beta: β)이 1보다 크거나 –1보다 작은

경우

⑥ 회귀식에 독립변수가 추가되거나 삭제될 때 회귀계수값의 변

화가 큰 경우

⑦ 일부 사례를 포함하거나 배제했을 때와 같이 자료값의 작은

변화에도 불구하고 회귀계수값이 큰 변화를 보일 때

⑧ 이 이외에도 통계프로그램에서 여러줄꼴의 문제점이 있는지

여부를 찾아낼 수 있다.

예컨대, SPSS에서 여러줄꼴의 문제점을 알아보는 방법은 다음

과 같다. 우선 데이터를 입력한 상태에서 선형회귀분석의 통계량

Page 80: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 68 -

<그림 14> 선형회귀분석의 통계량: 공선성(여러줄꼴) 진단

<그림 15> 공선성(여러줄꼴)의 통계량 확인

에서 공선성 진단을 클릭한다(<그림 14> 참조).

그 다음 분석 결과를 보여주는 결과물에서 변수들의 공선성 통

계량을 확인한다(<그림 15> 참조).

공차 한계(tolerance level)는 독립변수의 분산 중에 다른 독립

Page 81: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 69 -

<그림 16> 공선성(여러줄꼴) 진단의 상태지수 확인

변수들에 의해 설명되지 않는 정도를 뜻하며, 분산 팽창 요인

(Variance Inflation Factor: VIF) 값은 공차 한계의 역수로서 보

통 1에서 10 사이의 값을 보여주는데, 그 값이 작을수록 여러줄꼴

의 가능성은 낮은 것이다.

여러줄꼴의 문제점을 판단하는 데에는 뚜렷한 판단 기준이 있는

것은 아니나, 보통 공차 한계(tolerance level)가 0.19 이하이거나

VIF값이 5.3 이상이면 여러줄꼴의 문제점을 의심할 수 있다. 만약

공차 한계(tolerance level)가 0.1 이하이거나 VIF값이 10 이상이

면 여러줄꼴의 문제가 심각하다고 판단한다.

또는 분석 결과를 보여주는 결과물에서 다음과 같이 공선성 진

단을 확인할 수 있다(<그림 16> 참조).

상태지수 중에서 최대값이 10을 넘으면 일단 여러줄꼴을 의심

하고 15가 넘으면 문제가 있다고 본다. 만일 이 최대값이 100을

넘으면 여러줄꼴 문제가 아주 심각하다고 생각할 수 있다.

각 독립변수에서 추정된 회귀계수의 분산 중 몇 %가 각각의 고

유 벡터에 의하여 설명되는가를 재는 측도를 분산 비율이라고 하

는데 최대의 상태지수를 갖는 고유 벡터 중 90% 이상 설명하는

독립변수가 두 개 이상이면 여러줄꼴의 문제가 있다고 본다.

예를 들어 설명해보자. <그림 15>에서 VIF와 공차한계에서는

Page 82: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 70 -

여러줄꼴의 문제가 나타나지 않지만, <그림 16>의 공선성 진단에

서는 상태지수의 최대값이 29를 넘어 여러줄꼴의 문제가 있다고

의심할 수 있다. 그러나 최대 상태지수를 갖는 차원 5의 분산 비

율에서 90% 이상의 값을 가지는 독립변수는 ‘피교육 년’ 하나밖에

존재하지 않는 까닭에 분산 비율이나 VIF, 공차 한계 등을 종합하

여 볼 때, 이 자료의 여러줄꼴은 크게 문제가 되지 않는다고 판단

할 수 있다.

3) 여러줄꼴 문제의 해결 방법

그렇다면 여러줄꼴의 문제가 심각하게 나타나는 경우, 어찌할 것

인가?

여러줄꼴의 문제가 나타났을 때 해결하는 좀 더 손쉬운 방법들을

제시하면 다음과 같다.

① 우선적으로 생각할 수 있는 것은 좀 더 믿을 수 있고 질 좋은

측정값들을 변수로 사용하는 방법이다. 예컨대, 표본의 크기를 늘려

더 많은 사례를 포함시키는 것도 한 방법이다. 이는 사례 수를 늘림

으로써 자료에 포함되는 정보가 충실해지기 때문이다. 그러나 이러

한 방법을 사용할 수 없는 경우가 훨씬 많다.

② 여러줄꼴의 문제가 야기된 변수들 가운데 중요하지 않다고 생

각하는 변수를 빼버리는 방법이 있다. 이는 가장 간단한 방법이다.

요인분석을 통해 비슷한 변수들을 묶고 각 묶음 가운데에서 이론적

으로 가장 중요하다고 생각하는 변수를 뽑아 나머지 변수들을 대표

하게 하는 방법이 그러하다.

③ 만약 여러줄꼴의 문제를 띄고 있는 두 변수가 모두 중요하다

면, 연구의 목적상 필요한 변수를 하나씩 회귀모형에 넣고 회귀식

을 구할 수 있다. 이 경우 두 개의 각각 다른 회귀식이 나올 수 있

다.

④ 아니면 두 변수를 모두 넣고 능형회귀분석(ridge regression

Page 83: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 71 -

analysis)을 할 수도 있다.

⑤ 여러줄꼴의 문제가 야기된 변수들을 조작하여 하나의 변수로

만드는 방법이 있다.

보기를 들건대, ‘노인 인구수’와 ‘노인복지예산’이 독립변수로 쓰

인다면 분명히 여러줄꼴의 문제가 발생할 것이다. 이 경우 ‘노인복

지예산’을 ‘노인 인구수’로 나누어 ‘일인당 노인복지예산’이라는 새

로운 변수로 만들어 독립변수로 삼아 회귀분석을 하면 된다. 이 새

변수는 ‘노인 인구수’와 ‘노인복지예산’의 속성을 모두 포함하는 새

로운 변수가 된다.

또 다른 예로서는 요인분석을 통해 비슷한 변수들의 묶음을 만들

어, 이들 묶음들을 가지고 하나의 변수로 조작하는 방법이다. 이 경

우, 묶음에 속하는 변수들을 조합하여 지수(index)로 만들 수 있다.

이들 변수들의 자료값을 모두 더한다든가, 그 평균을 사용한다든가

하는 방법이다.

이 방법은 여러 변수 회귀분석에서 나타나는 또 다른 문제, 곧,

여러줄꼴의 상태에 있는 변수들의 회귀계수값은 낮게 추정되고, 다

른 변수들은 상대적으로 그 영향력이 과다 추정되는 문제를 해결해

준다.

반면에 지수화의 결과 찌꺼기의 형태에서 문제가 생길 수 있다.

예컨대, 두 변수의 차이를 가지고 새 변수를 만드는 경우, 자기회귀

의 문제가 발생할 가능성이 있으며, 두 변수의 비율(ratio)을 달리

퍼짐(heteroscedasdicity)의 문제가 생길 수 있다.

⑥ 문제가 되는 변수들을 표준화된 점수 곧, z점수로 변환하여

분석을 하는 방법도 있다. 이것 역시 일종의 자료 변환 방법이다.

이 방법은 변수들 사이에 나타나는 여러줄꼴의 관계를 변화시키지

않은 채 여러줄꼴 때문에 나타나는 부정확한 추정의 문제를 상당

히 완화시킬 수 있다.

Page 84: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 72 -

X

Y

e

<그림 17> 독립변수와

오차항의 관계: rxe

4. 독립변수와 오차항간의 독립성 문제

1) 독립변수와 오차항간의 독립성 문제

독립변수와 오차항간에는 서로 관련성이 없어야 한다(<그림 17>

참조). 만약 이 가정이 충족되지 않는다면 이는 오차항이 무엇인가

정보를 가지고 있다는 것을 의미한다.

이를 통계학에서는 독립변수 X와

오차항 e는 서로 독립적이라고 표현

하는데, 만약 독립변수 X가 오차항 e

와 관련이 있다면 오차항 e의 영향을

받아 b값이 편의(biased)될 것이다.

이는 여러줄꼴의 문제점과 같은 관

점에서 쉽게 이해할 수 있다. 다시 말

해서 여러줄꼴의 문제점은 독립변수

X가 다른 독립변수 X와 관계가 문제

가 되는 것이지만, 독립변수와 오차항

의 독립성 문제는 독립변수 X와 오차항 e가 서로 관계를 띠기 때문

에 발생하는 것이다.

단순화된 회귀모형 Y= a +bX +e를 좀 더 풀어서 쓴다면,

Y = a + b1X1 + b2X2 +ㆍㆍㆍㆍ + bnXn + e1 + e2 +ㆍㆍㆍㆍ + em

으로 표현할 수 있다. 여기에서 Y에 영향을 미치는 것들은 X1, X2

ㆍㆍㆍㆍ Xn 뿐만 아니라, e1, e2ㆍㆍㆍㆍ em 등도 있다. 오차항에 속하는 e1,

e2ㆍㆍㆍㆍ em 변수들은 우리가 모르고 있을 뿐이지 Y에 영향을 미친다

는 점에서는 또 다른 독립변수로 볼 수 있을 것이다. 여러줄꼴의 문

제점이 독립변수들 사이의 관계가 종속변수와의 관계보다 크기 때

Page 85: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 73 -

문에 나타나는 문제라고 볼 때, 독립변수 X들과 오차항 e들 사이에

도 밀접한 관계가 있으면 여러줄꼴의 문제점과 같은 증상이 나타날

것은 미루어 짐작할 수 있을 것이다.

2) 해결 방법

독립변수와 오차항간의 독립성 가정이 무너진다면, 이는 회귀모

형을 잘못 만들었다는 것을 의미한다. 곧, 적절한 독립변수가 탈락

되어 있거나 불필요한 독립변수가 들어가 있음을 뜻한다. 곧, 앞에

서 논의한 변수 선정의 오류와 연결된다.

따라서 독립변수와 오차항 사이에 상관관계가 발생하는 경우에는

이를 검토하여 모형을 재구성해야 한다. 예컨대, 이론적 검토를 거

쳐 새로운 도구 변수를 사용하거나, 불필요한 변수를 제거하거나,

아니면, 2단계 최소제곱법(two stage least square method:

2SLS)를 사용하여야 한다.

2단계 최소제곱법이란 기존의 독립변수와는 상관관계가 있으나

오차항과는 독립인 새로운 도구변수(instrumental variable) Z를

찾아내어 기존의 독립변수 X를 Z에 대한 추정으로 대체하여 모수

값을 추정하는 두 가지 단계를 밟은 모수 추정 방법이다.

5. 자동상관의 문제

1) 자동상관의 문제점

자동상관(autocorrelation)이라는 용어는 시계열 자료에서 많이

나타나는 현상이지만 횡단면적 자료에서도 나타날 수 있다. 시계열

자료나 횡단면적 자료에서 나타나는 오차항과 오차항간의 상관관계

를 통틀어 계열상관(serial correlation)이라고 한다. 여기에서는 주

Page 86: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 74 -

로 시계열자료에서 문제가 되는 까닭에 자동상관이라는 말을 사용

하여 설명하고자 한다.

시계열자료의 경우 과거의 상태가 현재의 상태에 영향을 미치는

경우가 흔하다. 예를 든다면, 정부 예산의 경우 전년도 예산을 바탕

으로 새 예산을 짜는 까닭에 연도별 예산액들 사이에는 점증주의

예산의 특징이 나타나고 이러한 것들이 자동상관으로 나타난다.

인구수의 증가나 GDP의 증가 역시 전년도의 영향을 많이 받는다.

이런 경우 만들어낸 회귀모형에서는 오차항들 사이에 자동상관의

문제가 발생한다.

자동상관의 문제가 발생하면, 자동회귀 현상 때문에 OLS 방식에

의한 모수추정값이 불편성(unbiasedness)을 만족한다 하더라도 그

것이 적합한 값이라고 보기 어렵다. 자동회귀는 일반적으로 t값과

F값은 물론 R2값을 실제보다 증가시키는 경향이 있는 까닭이다. 이

런 까닭에 회귀분석은 오차항들 사이에 자동상관이 존재하지 않아

야 한다는 것을 전제로 한다.

이를 통계학적으로 표현하면,

Cov(ei, ej)=0

이며, 이는 어느 한 기간에 오차항이 취하는 값(ei)은 다른 기간

에 취했던 값(ej)과 관련되어 있지 않다는 것을 뜻한다.

이는 여러줄꼴의 문제점을 파악하는 관점에서 보면 좀 더 쉽게

이해할 수 있다. 독립변수와 오차항간의 독립성 가정에서 사용한

여러 변수 회귀모형,

Y = a + b1X1 + b2X2 +ㆍㆍㆍㆍ + bnXn + e1 + e2 +ㆍㆍㆍㆍ + em

에서 Y에 영향을 미치는 것들은 X1, X2ㆍㆍㆍㆍ Xn 뿐만 아니라, e1, e2

ㆍㆍㆍㆍ em 등이 있다. 여기에서 독립변수 X들끼리 서로 독립적이어야

Page 87: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 75 -

e1

Y

e2

<그림 18> 오차항과 오차

항의 관계: re1e2

심각한 여러줄꼴의 문제점이 나타나지

않는다.

마찬가지로 독립변수 X들과 오차항

e들과의 관계도 역시 독립적이어야 하

고, 오차항에 속하는 e1, e2ㆍㆍㆍㆍ em 끼

리도 서로 독립적이어야 할 것이다

(<그림 18> 참조).

곧, 여러줄꼴의 문제점이 독립변수

들 사이의 관계가 종속변수와의 관계

보다 크기 때문에 나타나는 문제라고

볼 때, 또 다른 성격의 독립변수들인 오차항들끼리도 그 관계가 서

로 밀접하면 안 된다는 것을 쉽게 이해할 수 있을 것이다.

2) 자동상관을 찾아내는 방법

자동상관을 찾아내는 방법은 다음과 같다.

① 기어리 검증(Geary test): 기어리 검증은 자동상관을 확인하

는 가장 간단하고 쉬운 방법이다.

이 방법은 단순히 찌꺼기(residuals)들의 부호가 +에서 –로 또는

–에서 +로 바뀐 횟수를 찾아내어 판단하는 방법이다. 만약 정(正)

의 자동상관이 존재하면 찌꺼기 부호의 변화 횟수가 매우 적을 것

이지만, 부(負)의 자동상관이 존재하면 찌꺼기 부호의 변화 횟수가

매우 많아지게 된다.

기어리 검증은 복잡한 계산 없이 쉽게 할 수 있는 것이지만, 표본

의 수가 작은 경우에는 적용하기가 곤란하며, 적어도 30개 이상의

표본일 때 검증의 신빙성이 높아진다.

② 더빈-와슨의 d값(Durbin-Watson’s d): 더빈-와슨의 d값은

자동상관을 찾아내는 데 가장 널리 쓰이는 방법이다.

d값은 다음과 같은 다음의 네 가지 조건을 가정하고 만들어졌다.

Page 88: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 76 -

1. 회귀모형에 상수가 포함되어 있어야 한다.

2. 독립변수가 비확률적 변수(non-stochastic variable)이다.

3. 시차 종속변수가 독립변수로 포함되어 있지 않아야 한다.

4. 찌꺼기들이 1차 자동회귀 계열(first-order autoregressive

series)을 구성한다.9) 즉 et = φet-1 + vt이어야 한다. 여기에서 et

와 et-1은 각각 t와 t-1의 시점에서 나타나는 찌꺼기이고, φ는 자동

상관계수이고, vt는 평균이 0이고 정규분포를 이루며 OLS의 기본

가정을 충족시키는 찌꺼기이다.

더빈 와슨의 d값은 φ=0이라는 영가설을 검증하는 것인데, 그 값

은 0~4의 범위를 가진다. 만약 φ값이 -1에 가까우면 가까울수록 d

값은 4에 가까워지고, φ값이 1에 가까우면 가까울수록 d값은 0에

가까워진다.

만약 자동상관관계가 없으면, 다시 말해서 위의 식에서 φ값이 0

이면, d=2이며, d값이 2보다 작으면 양의 자기상관, 2보다 크면 음

의 자기 상관관계에 있음을 알 수 있다.

그러나 문제는 자동상관을 판단할 수 있는 뚜렷한 기준이 없다는

것이다. 따라서 일반적으로 d값이 2에 가까우면 자동상관이 크게

문제되지 않으나, 0이나 4에 가까우면 자동상관의 문제가 있다고

판단하는 것이 보통이다. d값이 2라면 자동상관이 없는 것이지만,

어느 정도의 상관성은 존재하는 것이기에 경험적(rule of thumb)으

로 볼 때, 대략 1.3~2.7 정도면 자동상관의 문제가 없는 것으로 볼

수 있다.

일반적으로 더빈 와슨의 d값을 사용하려면 다음과 같은 몇 가지

사항을 유의하여야 한다.

1. 표본의 최소한 15개 이상이어야 한다.

9) Durbin-Watson’s d값은 1차보다 더 높은 차수의 자동상관을 찾아내

도록 고안된 것이 아니기 때문에 오차항의 자동상관이 2차 이상인 경

우에는 특별히 유용한 정보를 제공해준다고 보기 어렵다.

Page 89: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 77 -

2. 시차 종속변수가 독립변수로 사용되어서는 안 된다.

3. d값의 판단이 모호한 경우에는 표본의 크기를 증가시킬 필요

가 있다.

4. 독립변수의 수를 알아야 한다.

5. 자동상관계수 φ값이 0.3 이상이면 OLS 이외의 방법을 사용하

여야 한다.

3) 자동상관의 해결 방법

자동상관을 해결하기 위해서는 다음과 같은 방법을 사용한다.

① 일반화된 최소제곱법(Generalized least squares method: 이

하 GLS): GLS 방식은 φ값을 알고 있음을 전제로 한다. 그러나 φ값

은 모르는 경우가 대부분인데, 이때에는 코크란스-오커트 방법을

사용한다.

② 코크란스-오커트 방법(Cochrance-Orcutt method): φ값을

모르는 경우 이를 추정해 내는 방법이다.

③ 1차 차이화하는 방법(first difference method): φ값을 1로

가정하고 원 자료를 1차로 차이화하여, 다시 말해 [Yt - Yt-1]과

[Xt - Xt-1]의 형태로 변환한 후 OLS 방식으로 추정하는 것이다.

이 방법은 φ값이 1에 가까운 경우라고 생각할 때에만 적용할 수

있다. 그렇지 않으면 잘못된 결론을 내리기 쉽기 때문이다.

차이화(differencing)에 관해서는 아리마 시계열 방법에서 논의

하므로 여기에서는 생략한다.

Page 90: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 78 -

다섯째 갈래: 회귀분석 결과의 해석

회귀분석의 결과를 어떻게 해석할 것인가의 문제는 회귀모형에서

우리가 알아내고자 하는 것들의 통계적 의미와 관련된 것이다. 그

렇다면 회귀모형에서 우리가 알아내고자 하는 것이 무엇인가부터

알아야 하고, 이를 어떻게 해석하는지를 알아야 한다. 여러 변수 회

귀모형의 기본형을 통해 그 해석 방법을 알아보자.

여러 변수 회귀모형을 일반적인 수식으로 표시하면 다음과 같다.

Y = a + b1X1 + b2X2 +ㆍㆍㆍㆍㆍㆍ + bnXn +e

여기에서 우리가 추정하는 값은 a와 b1, b2, ... bn이다. 그렇지만

우리가 알고 싶은 것은 이것만이 아니다. a와 b1, b2, ... bn의 값들

이 통계적으로 의미가 있는지 여부도 알아야 하고, 아니, 그보다 먼

저, 이 회귀모형을 받아들일 수 있는지 여부부터 따져보아야 할 것

이다. 또한 독립변수 X들이 종속변수 Y를 어느 정도나 설명해주는

지 여부, 독립변수 X들 가운데 어는 독립변수가 가장 많은 영향력

을 가지는 지 등등을 알고 싶어 한다. 그렇다면 이에 대해서 알아보

자.

종속변수를 이론적으로 설명해주는 독립변수들을 가지고 회귀분

석 모형을 만들어 컴퓨터를 돌리면 다음과 같은 <표 10>과 결과를

보여준다. 그렇다면 <표 10>의 결과를 가지고 어떻게 분석하는가

를 알아보자.

Page 91: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 79 -

<표 10> 회귀분석 결과

R2= 0.613

adj R2 = 0.609 F = 47.3192

standard error 0.096 Sig F = 0.0000

Variables in the Equation

Variable b SE b Beta t Sig t

Ed 0.031 0.0018 0.592 322.41 0.000

Sex -0.099 0.0099 -0.322 100.06 0.000

Work 0.003 0.0005 0.157 25.44 0.000

Min -0.053 0.0109 -0.141 23.17 0.000

(Constant) 3.412 0.0284

1) F값 및 Sig F값: 이 값은 만들어진 회귀모형을 받아들일 수

있는가 여부를 통계학적으로 판단하는 값이다. 곧, 회귀함수식의 통

계학적 의미에 관한 값으로서 일반적으로 사회과학에서는 F값의 확

률값인 Sig F값이 0.05 이하인 경우 그 함수식을 받아들일 수 있다

고 판단한다.

2) R2값: 추정한 회귀함수식의 적합도(goodness of fit)를 나타내

는 값이다. 쉽게 말해서 회귀함수식에 포함된 모든 X들이 Y를 설명

해 주는 정도를 나타낸 값이다. 예컨대 R2=0.61이라면, 이 회귀함

수식에 포함된 독립변수들이 Y를 61% 정도 설명해준다고 할 수 있

으며, 이 식에 포함되지 않은 독립변수들이 Y를 설명해주는 것이

39%라고 할 수 있다. 이때, 이 식에 포함되지 않은 변수들, 곧, 우

리가 모르는 독립변수들의 합은 오차항 e로 나타나므로 39%는 이

회귀모형에서 오차항이 설명해주어야 할 부분이라 할 수 있다.

Page 92: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 80 -

3) adj R2: 회귀식에 포함된 독립변수가 늘어나면 늘어날수록 R2

값은 높아진다. 따라서 독립변수의 수를 고려하여 회귀모형의 설명

력을 파악하여야 할 필요가 있다. 독립변수가 늘어나면 늘어날수록

R2값은 높아지지만, adj R2값은 높아지지 않고 줄어든다.

만약 둘 이상의 회귀모형이 통계학적으로 의미가 있을 경우 좋은

회귀모형은 adj R2값이 높은 회귀모형이라 할 수 있다.

4) a: 회귀모형의 a는 <표 10>에서 상수항(constant)으로 표시되

는데, 회귀선이 Y축과 만나는 점의 값이어서 Y 절편(intercept)이

라고 부르기도 한다. 상수 a는 일반적으로 관심을 덜 받는 편이긴

하나, 우리가 모르는 변수들의 집합이라 할 수 있는 오차항의 평균

영향력을 보여준다고 볼 수 있다.

5) b값: 각각의 독립변수인 X가 종속변수 Y에 미치는 영향을 나

타내는 값이 b값이다. “X가 한 단위 증가할 때, Y가 b만큼 증가한

다.”라고 해석한다. 여러 변수 회귀모형인 경우에는 “다른 모든 조

건이 일정할 때 X1이 한 단위 증가하면 Y는 b1만큼 증가한다.” 또

는 “다른 변수들이 모두 통제되었을 때, X1이 한 단위 증가하면 Y

는 b1만큼 증가한다.”라고 해석한다.

6) Beta(β)값: Y를 설명하는 독립변수들을 비교하기 위하여 만든

통계값이다. 독립변수들은 각각 측정 단위가 다르다. 예컨대, 교육

정도는 햇수로 측정되고, 성별은 남녀로 측정되며, 경력은 그 직장

에서 근무한 개월 수로 측정할 수 있다. 이와 같이 측정 단위가 다

른 경우, 어떤 독립변수가 더 많은 영향을 미치는지를 b값으로는

비교할 수 없다. 곧, 측정 단위가 다르고, 편차가 다른 독립변수의

Y에 미치는 영향력을 비교하기 위하여 만들어 낸 값이 베타(Beta:

Page 93: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 81 -

β)값이다.

베타값은 독립변수들을 비교하기 위해서 b값을 표준화시킨 것이

어서 표준화된 회귀계수값이라 부른다. 예컨대, 사과와 오렌지를 각

각 칼로리로 환산하여 비교하는 것에 비유할 수 있다. 베타값은 -1

에서 1 사이에 분포하며, 베타값이 클수록 종속변수에 미치는 영향

력이 큰 것이다.

7) t값 및 Sig t값: b값을 통계학적으로 받아들일 수 있는가에 관

한 기준값이 t값이다. 보통 사회과학에서는 한쪽 검증인 경우,

1.645, 양쪽 검증인 경우 1.98 이상이면 α = 0.05 수준에서 받아들

일 수 있다.

여기에서 α는 Sig t로 표시된다. 곧, Sig t값은 t값에 관한 확률값

으로서 0.05 이하이면, 그 독립변수가 종속변수에 미치는 영향이

통계적으로 볼 때 95%의 확률을 가지고 유의하다고 해석한다. 보

통 사회과학에서는 α = 0.05를 쓰지만, 때에 따라서는 α = 0.1 수

준에서 이야기하는 경우도 있다. 곧, 90%의 확률을 가지고 통계적

으로 유의하다는 해석을 하는 경우도 있다.

Page 94: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 82 -

넷째 가름: 아리마 시계열분석

첫째 갈래: 시계열분석의 의미와 기본 모형

1. 시계열분석의 의미와 종류

1) 시계열분석의 의미

시계열분석(time-series analysis)은 시간의 흐름에 따라 변화

하는 변수를 분석하는 방법이다. 회귀분석은 변수와 변수의 관계

를 회귀모형으로 잡아내어 인과관계를 검증하는 것을 목적으로 하

지만, 시계열분석은 하나의 변수가 시간의 흐름에 따라 움직이는

것을 수리모형으로 잡아내어 미래를 예측하기 위한 것이다.

물론 시계열분석에서도 회귀분석에서처럼 변수와 변수의 관계를

찾아내거나, 어떤 시점의 사건이 변수에 미친 영향을 모형을 통해

찾아낼 수도 있다.

그렇지만, 이런 경우에도 각각의 변수들을 대상으로 시간의 흐

름에 따른 한 변수 시계열모형을 만들어 이들을 가지고 여러 변수

시계열모형을 만드는 것이므로, 결국 변수와 시간의 관계를 모형

화하는 것--통계적으로 적절한 모형으로 잡아내는 것--이 그 바

탕이 된다.

시계열분석모형은 변수 Y가 시간에 따라 어떻게 변화해나가는

지를 수리모형으로 표현하는 것이므로, 그냥 쉽게 말한다면, Y가

Page 95: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 83 -

종속변수이고 시간이 독립변수인 셈 치면 된다. 그러나 엄격하게

말한다면 시간이 독립변수의 역할은 하지만 독립변수는 아니다.

한편으로는 모형을 구성하는 교란항들(disturbance terms)이 독

립변수 역할을 한다고도 할 수 있을 것이다. 교란항은 움직평균

요소와 자동회귀 요소로 이루어져 있는데, 이들 요소들은 내생변

수와 관련이 있으며, 이들을 풀어 쓰면 독립변수로서의 내생변수

가 나타난다.

2) 시계열모형의 종류

시계열분석모형 가운데 가장 기본이 되는 것이 한 변수 아리마

모형(univariate ARIMA model)이다. 곧, 하나의 변수가 시간의

흐름에 따라 어찌 변화되어 가는가를 나타낸 모형이다. 한 변수

아리마모형은 그 변수가 앞으로 어찌 변화할 것인지를 예측하는

데 도움을 준다.

반면에 어떠한 사건이 있을 때 그 사건이 어떤 변수에 어떻게

영향을 미쳤는지를 알아내기 위해 만드는 시계열모형이 있는데,

이를 영향모형(impact model)이라 한다. 보기를 들건대, 과거 어

느 한 시점에서 정책이 시행되면서 미친 영향을 분석할 수 있는

시계열모형이 바로 이 모형이다.

한편 회귀분석에서처럼 두 변수의 관계를 찾아내기 위해 만드는

시계열분석모형이 여러 변수 아리마모형(mutivariate ARIMA

model)이다.

이 모형은 여러 변수들의 관계가 어떠한지를 찾아내기 위해 사

용되는 분석 모형이다. 곧, 어느 정도의 시차를 가지고 어떤 변수

가 다른 어떤 변수에게 얼마나 영향을 미쳤는지를 분석해낼 수 있

는 모형이다. 넓은 의미에서는 앞에서의 영향모형 역시 여러 변수

모형의 일종이라고 볼 수 있다.

Page 96: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 84 -

2. 시계열분석의 기본 모형

1) 시계열의 균형 수준(정태성: stationarity)

시계열 자료는 시간의 순서에 따라 배열되어 있다. 곧, 시계열

자료는 변수 Y가 시간의 흐름에 따라 어떻게 변화했는지를 보여

준다.

시간의 흐름에 따른 변화에서 시간은 독립변수 역할을 한다고

볼 수 있다. 시간 속에는 Y에 영향을 미치는 모든 변수들이 포함

되어 있다. 따라서 시간 t를 X축에 놓고 Y의 변화를 시간의 흐름

에 따라 그려보면 여러 가지 형태가 나올 것이다. 계속 증가하거

나 감소하는 Y도 있을 것이고, 제멋대로 오르락내리락하는 Y도

있을 것이다. 앞의 것을 추세(trend)라 부르고, 뒤의 것을 동향

(drift)라 한다.

이와 같이 시간의 흐름에 따라 변화하는 Y를 모형으로 만들어

설명하기 위해서는 시계열의 균형 수준이라는 개념을 이해하여야

한다. 계속 증가하거나 감소하는 Y나, 제멋대로 움직이는 Y나 모

두 과거의 자기 자신이 변화함으로써 현재의 Y에 도달해 있는 것

이다.

이와 같이 추세나 동향은 계속 변화하는 것이기에 시간이라는

독립변수를 집어넣지 않는 한 이를 설명할 수 있는 모형을 만들어

내기가 쉽지 않다. 그러나 시간이라는 변수를 넣는 경우 왜 그런

지에 대한 설명을 시간이 포함하고 있으므로 “시간이 흐르니까 이

렇게 변화한다.”는 것 이상의 과학적 설명은 불가능하다.

그렇지만 만약 추세나 동향이 시간의 흐름에 관계없이 일정한

균형 수준을 유지할 수 있다면, 이를 모형화하는 것은 쉬운 일이

다. 시계열 자료 자체가 동태적(dynamic)이기 때문에 이 자료를

Page 97: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 85 -

Yt

* * * * * * * * * * * * ** * * * * * * * * * * * * * * * * * * * ** * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * ** * * * * * * * * * ** * * * * * * *a ** **

t

<그림 19> 추세를 보여주는 자료

변환시켜 균형 수준을 유지하게 만들면, 동태적인 성격은 없어지

고 자료는 정태적(stationary)이 된다.

시계열 자료의 정태성을 확보하면, 시간의 흐름에 관계없이, 다

시 말해서 시간이라는 추상적인 독립변수(?)의 영향과는 상관없이,

일정 수준에서 균형을 보여주는 모형을 만들 수 있다. 이를 그림

으로 보여주면 다음과 같다.

<그림 19>와 <그림 20>이 추세와 동향을 보여주는 자료의 그

림이라면, <그림 21>은 정태적인 자료를 보여주는 그림이다.

<그림 19>를 회귀모형의 방식대로 풀이한다면, Y = a + bT로

표시될 것이다. 여기에서 T는 Y에 영향을 미치는 모든 변수들이

포함된 시간이라는 독립변수이다. 따라서 기울기가 b인 회귀선을

그릴 수 있다. 한편 <그림 20>은 동향을 보여주는 그림인데, 이러

한 움직임을 그 자체에서 수리모형으로 표현하기는 어렵다. 그러

나 <그림 21>은 시간이라는 독립변수가 존재하지 않는 균형 수준

으로 늘 일정하다. 곧, 이 모형은 Y = θo로 표시할 수 있다.

Page 98: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 86 -

Yt

* * ** * * * * * * * * * * * * * * * * * * * * * * * ** * ** * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * ** * * ** * * * * * * * * * * * * * * * *

θ0

t

<그림 21> 정태성을 보여주는 자료

Yt * * * * ** * * * * * * * * * * ** * * * * * * * * * * * * * * * * * * * * * * ** ** * * * * * * * * * * * * * * * * * * * * * * * * * ** * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

θ0

t

<그림 20> 동향을 보여 주는 자료

회귀분석에서는 자료값들을 대표할 수 있는 회귀선을 찾아내는

것을 목적으로 하지만, 시계열분석에서는 균형 수준을 찾아내는

것이 모형을 만드는 첫걸음이다. 곧, <그림 19>의 추세나 <그림

Page 99: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 87 -

20>의 동향을 나타내주는 관찰값들을 <그림 21>처럼 만드는 것

이 시계열분석모형을 만들기 위해 제일 먼저 해야 할 일이다.

2) 기본 모형

회귀모형에서는 독립변수 이외에 우리가 모르는 다른 요소들이

영향을 미칠 것이고, 이를 오차항(error terms)으로 표시한다. 따

라서

Y = a + bT + e

가 될 것인데, 앞의 셋째 가름에서 보았듯이 독립변수와 오차항의

관계나, 오차항과 오차항의 관계에서 전제하고 있는 기본 가정들

이 어긋나는 경우 늘 문제가 된다.

이는 시계열분석모형에서도 마찬가지이다. 시계열분석모형에서

는 회귀분석 모형의 오차항에 해당되는 부분이 잡소리 부분(noise

component)인데 교란항(disturbance terms)이라고 부른다. 따라

서 이 교란항도 회귀분석 모형에서의 오차항에서 가정하고 있는

조건들이 충족되어야 한다.

따라서 시계열분석을 위한 기본 모형은

Yt = θo + Nt

로 표시할 수 있다. 여기에서 θo는 시계열의 균형 수준을 의미하

며, Nt는 제멋대로 과정(stochastic process)으로서 자리하고 있는

잡소리 부분(noise component)이다. 다시 말해서 시계열모형은

균형 수준을 나타내는 부분 θo와 교란항이라 부르는 잡소리 부분

Nt로 구성되어 있다고 할 수 있다.

이때 잡소리 부분의 교란항 Nt는 없소리(white noise)이어야 하

며, 이때 그 변량은 일정하여야 한다. 없소리란 교란항의 영향이

Page 100: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 88 -

0이 됨을 의미한다.10) Nt가 없소리인 경우에는 Nt 대신 at로 표현

한다. 바꾸어 말한다면, at는 없소리인 Nt를 나타내주는 기호이며,

아리마모형에서는

at ~ NID (0, σ2a)

임을 가정한다.

기본 모형 ‘Yt = θo + Nt’에서 Nt대신에 교란항 Nt를 구성하고

있는 자동회귀 요소와 움직평균 요소로 표시하면, 한 변수 시계열

에 관한 기본 모형이 다음과 같이 표시된다.

1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + at 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

이 모형에서 Yt는 현재 시점의 Y를 나타내며, θ0는 시계열의 균

형 수준이고, θ1~θp는 움직평균 요소들의 모수값이며, φ1~φq는

자동회귀 요소들의 모수값이다. B는 뒤로 부호이고, at는 없소리

상태인 잡소리 요소를 나타낸다.

이 모형은 하나의 변수 Y가 시간의 흐름에 따라 어찌 변화하는

가를 분석하기 위한 기본 모형이다.

한편, 이러한 한 변수 모형에 독립변수 시계열을 덧붙이는 경우

영향 모형이나 여러 변수 시계열모형의 기본형이 제시된다. 곧,

ωi(B) 1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + Σ Xi,t + at 1 - δi(B) 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

10) 없소리라 이름붙인 이유는, 서로 마주치는 소리들은 소리 간섭에 의

하여 소리결이 사라지는 현상이 있는데, 이를 빗대어 붙인 이름이다.

곧, 회귀분석에서 우리가 모르는 변수들로 구성된 오차항들이 종속변

수에 미치는 영향의 합은 0이라고 가정하는 것과 마찬가지로, 시계열

모형에서도 잡소리들의 영향은 0이라는 가정을 충족시켜주어야 한다.

Page 101: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 89 -

은 여러 변수 시계열모형의 기본 모형이다. 여기에서 Xi,t는 t 시점

의 i 번째 독립변수 역할을 하는 시계열이고, ωi는 i 번째 독립변

수가 미친 영향을 보여주는 모수값이며, ‘1 - δi’는 독립변수 시계

열이 미친 영향의 감소율이다.

3) 모형의 형태와 종류

시계열모형을 보통 아리마(ARIMA) 모형이라고 부르지만 엄격한

의미에서는 차이화(differencing), 자동회귀(auto-regressive), 움

직평균(moving-average)의 세 가지 요소가 다 포함되어 있는 모

형을 일컫는다.

한 변수 시계열모형은 모형에서 잡아낸 교란항의 형태에 따라

자동회귀모형과 움직평균 모형으로 나눌 수 있다

만약 자동회귀 요소만 있는 모형이라면, 이를 자동회귀모형(AR

모형)이라고 부르고, 움직평균 요소만 있는 모형이라면, 움직평균

모형(MA 모형)이라 부른다. 물론 이 둘이 혼재되어 있는 모형도

있을 수 있는데, 이는 ARMA 모형이라 한다.

① 자동회귀모형(AR 모형)

자동회귀모형은 교란항 가운데 자동회귀 요소만 모형에 잡히는

경우를 말한다. 곧, 한 변수 시계열모형의 기본 형태

1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + at 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

에서 움직평균 요소인 θ1~θp가 없는 경우, 곧, θ1~θp의 값이 0과

다름이 없는 경우이다. 따라서 이 형태의 기본형은

1 Yt = θ0 + at

1 - φ1B - ‧‧‧‧‧‧ - φqBq

Page 102: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 90 -

이라고 쓸 수 있다. 이론적으로는 자동회귀 요소인 φ들이 여러 개

있는 것으로 간주할 수 있으나 실제로 세 개 이상 있는 경우는 거

의 없다.

만약 자동회귀 요소가 하나인 경우에는

1 Yt = θ0 + at

1 - φ1B

의 형태가 될 것이고, AR(1) 모형이라 부르며, 자동회귀 요소가

둘이라면

1 Yt = θ0 + at

1 - φ1B - φ2B2

가 될 것이고. AR(2) 모형이라 부른다.

이때 자동회귀계수 φ1 또는 ‘φ1 +φ2’는 -1과 1 사이에 존재하

여야 한다. 이를 정태성의 조건(bounds of stationarity)이라 부른

다. φ1 또는 ‘φ1 +φ2’가 만약 –1보다 작거나 1보다 크게 되면, 이

자료가 정태적이 아니라는 것을 뜻하므로 정태성을 확보하여야 한

다.

② 움직평균모형(MA 모형)

움직평균모형은 교란항 가운데 움직평균 요소만 모형에 포함되

는 경우를 말한다. 곧, 한 변수 시계열모형의 기본 형태에서 자동

회귀 요소인 φ1~φp가 없는 경우, 곧, φ1~φp의 값이 0과 다름이

없는 경우이다. 따라서 이 형태의 기본형은

Yt = θ0 + (1 - θ1B - ‧‧‧‧‧‧ - θpBp)at

인데, 자동회귀모형(AR)에서와 마찬가지로 움직평균 요소인 θp가

둘 이상인 경우는 매우 드물다.

Page 103: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 91 -

만약 움직평균 요소가 하나인 경우에는

Yt = θ0 + (1 - θ1B)at

의 형태가 될 것이고, AR(1) 모형이라 부르며, 자동회귀 요소가

둘이라면

Yt = θ0 + (1 - θ1B - θ2B2)at

가 될 것이고. MA(2) 모형이라 부른다.

이때 움직평균계수 θ1 또는 ‘θ1 +θ2’는 -1과 1 사이에 존재하

여야 한다. 이를 전환성의 조건(bounds of invertability)라 부른

다. 만약 이 가정이 어긋나면 자료 자체가 비정태적이라는 것을

의미하는 까닭에 먼저 시계열을 정태적으로 만들어야 한다.

3. 시계열분석(time-series analysis)의 모수 추정 방법

시계열모형의 모수값들을 추정하기 위해서는 우선 자료의 정태

성을 확보해야 하고, 정태성이 확보되면, 교란항의 움직평균 요소

와 자동회귀 요소를 찾아내어 교란항을 없소리 형태로 만든 모형

을 만들면서 모수값들을 추정하여야 한다.

1) 정태성의 확보

시계열모형을 만들려면, 일단 시간의 흐름에 따른 변수 Y의 관

찰값들이 정태성(stationarity)을 띠어야 한다. 정태성을 띠고 있으

면 쉽게 모형화할 수 있다.

그러나 원래부터 자료의 관찰값들이 정태성을 띠고 있는 것은

Page 104: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 92 -

아니다. 앞의 <그림 19>나 <그림 20>처럼 추세나 동향을 나타내

는 자료들이 대부분이다. 그렇다면 정태성을 어찌 확보해야 할까?

정태성을 확보하는 방법은 다음과 같은 절차를 따른다.

① 우선 원 자료의 관찰값들을 가지고 시간의 흐름에 따른 변화

를 펼친그림(scattergram)으로 그려본다. 또는 자동상관함수(ACF:

Auto-Correlation Function)와 부분자동상관함수(PACF: Partial

Auto-Correlation Function)를 조사한다(송근원, 2005: 56).

② 조사 결과 정태성이 나타나지 않는다면, 다시 말해서 추세나

동향을 보여준다면, 관찰값들을 차이화(differencing)함으로써 정

태성을 확보한다. 차이화란 t 시점의 관찰값에서 t-1 시점의 관찰

값을 빼어 새로운 자료를 만드는 것을 뜻한다. 곧, 새로운 관찰값

들은 ‘Yt – Yt-1’의 자료로 전환된다(송근원, 2005: 57).

③ 새로운 자료의 관찰값들을 놓고 ①의 순서로 돌아가 정태적

인지 아닌지를 파악한다. 대부분의 관찰값들은 한 번 차이화(first

order differencing)하게 되면 정태적으로 변화하는 것이 보통이

다. 그러나 그럼에도 불구하고 정태적이 아니라면 이 관찰값들을

가지고 다시 한 번 더 차이화를 시도한다(송근원, 2005: 57-58).

④ 이와 같이 두 번 차이화(second order differencing)를 하였

는데도 정태성을 확보하지 못하였다면, 이러한 자료는 계속 차이

화하여도 정태성을 확보할 수 없는 자료일 가능성이 높다. 따라서

이 경우에는 원 자료의 관찰값에 로그를 취하여 자료를 변환시킨

다. 그리고 로그를 취하여 변환된 자료(log-transformed data)를

가지고 차이화함으로써 정태성을 확보한다(송근원, 2005: 58-59).

한편, 때에 따라서는 계절적으로 차이화함으로써 정태성을 확보

하는 경우도 있다. 곧, 계절적 영향에 의하여 자료의 관찰값들이

일정한 패턴을 보이는 경우가 그러하다. 계절적 영향이 나타나는

자료를 정태적 자료로 변환하는 절차는 다음과 같다.

① 관찰값들의 펼친그림(scattergram)이나 자동상관함수(ACF)

Page 105: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 93 -

와 부분자동상관함수(PACF)를 통해 계절적 영향에 따른 일정한

패턴을 찾아낸다.

② 만약 조사 결과 계절적 영향을 찾아낸다면, 이 자료 역시 관

찰값들을 차이화(differencing)함으로써 정태성을 확보해야 한다.

다만, 차이화할 때, 계절적 영향을 보여주는 시차를 가지고 차이화

하여야 한다는 점이 일반적 추세나 동향을 나타내는 자료들의 차

이화 방법과 다른 점이다.

보기를 들건대, 만약 관찰값들이 사계절의 영향을 보여준다면, t

시점의 관찰값에서 t-1 시점의 관찰값을 빼는 대신에, t 시점의

관찰값에서 t-4 시점의 관찰값을 빼어 새로운 자료를 확보한다.

쉽게 말해서 금년 봄의 관찰값에서 작년 봄의 관찰값을 빼고, 금

년 여름의 관찰값에서 작년 여름의 관찰값을 빼고, 금년 가을의

관찰 값에서 작년 가을의 관찰값을 빼고, 금년 겨울의 관찰값에서

작년 겨울의 관찰값을 빼는 식으로 차이화하는 것이다. 이 경우

새로운 자료는 ‘Yt – Yt-4’의 관찰값으로 전환된다.

만약 월별 영향을 받는 것으로 판단된다면, t 시점의 관찰값에서

t-12 시점의 관찰값을 빼어 새로운 자료를 확보한다. 이 경우 새

로운 관찰값들은 ‘Yt – Yt-12’의 관찰값으로 전환될 것이다(송근원,

2005: 59-60).

2) 모형의 추정

자료가 그 수준이나 변량에서 어느 정도 정태성을 띠게 되면,

잠정적 모형을 추정하여 모수값을 구한다. 잠정적 모형을 추정한

다는 말은 정태성을 띤 자료를 가지고 교란항이 없소리(white

noise)인지, 자동회귀(auto-regressive) 요소나 움직평균(moving

-average) 요소가 개입되어 있는지를 추정하는 것을 말한다.

모형의 추정은 자동상관함수(ACF)와 부분자동상관함수(PACF)

의 형태를 보고 판단한다. 시계열모형은 자료의 관찰값들이 무작

Page 106: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 94 -

위로 분포되어 있는 없소리인 제멋대로 과정(stochastic process)

을 가정한다. 곧, 시계열모형의 잡소리 부분인 Nt는 일련의 무작위

적인 요소들(random shocks)로 구성된다는 것을 가정하며, 이들

이 정상적으로 분포되어 있고, 서로 독립적이고, 그 평균이 0이며

변량이 일정하다는 것을 가정한다. 만약 무작위적인 요소들이 독

립적이지 않고 서로 영향을 미친다면 이들의 관계를 찾아내어 모

형으로 만들어주어야 한다.

회귀분석과 비교하여 이야기한다면, 회귀분석에서 실제 관찰값

과 회귀선과의 차이를 보여주는 것들이 오차항인데, 오차항끼리는

서로 독립적임을 가정한다. 마찬가지로 시계열모형에서도 잡소리

부분의 교란항이 서로 독립적이라는 것을 가정한다.

따라서 이러한 가정이 충족되는지를 자동상관함수(ACF)와 부분

자동상관함수(PACF)를 보고 판단하는 것이다. 만약 이러한 가정

이 충족되지 않는다면, 교란항에서 이들이 미치는 체계적인 영향

을 모형으로 잡아내는 것을 모형 추정(model identification)이라

한다.

자동상관함수와 부분자동상관함수를 보고 모형을 추정하는 절차

는 다음과 같다.

① 만약 자동상관함수(ACF)와 부분자동상관함수(PACF)가 시차

1에서 큰 값을 가지고 있고, 천천히 소멸한다면, 이는 교란항이

시간의 영향을 체계적으로 받고 있는 것이므로 정태성을 확보하였

다고 볼 수 없다. 따라서 이 경우에는 원 자료를 정태성을 띤 자

료로 변환하여야 한다(<그림 22> 참조).

② 만약 자동상관함수(ACF)와 부분자동상관함수(PACF)가 모든

시차에서 0과 다름이 없는 경우에는 없소리 상태라 할 수 있다.

곧, 이 경우 추정되는 모형은 ‘Yt = θo + at’이다(<그림 23> 참

조).

③ 만약 자동상관함수(ACF)가 시차 1에서 튀어 나온 것이 제곱

Page 107: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 95 -

ACF of lags 1-30 ACF of lags 1-30

-1.000 0 1.000 -1.000 0 1.000 .+++++++++++++++++++++++.+++++++++.++++++++++++++++. .++++++++++++++++++++++++.+++++++++++++++++++++++. 1 ( I**)******************** 1 ( I* ) 2 ( I**)******************* 2 (**I ) 3 ( I**)****************** 3 (**I ) 4 ( I**)***************** 4 (**I ) 5 ( I***)*************** 5 ****I ) 6 ( I***)************** 6 ( I** ) 7 ( I***)************* 7 ( I* ) 8 ( I***)************ 8 ( I* ) 9 ( I***)*********** 9 ( I* ) 10 ( I***)********** 10 ( **I ) 11 ( I***)********* 11 ****I ) 12 ( I***)******** 12 ( *I ) 13 ( I***)******* 13 ( *I ) 14 ( I***)******* 14 ( I** ) 15 ( I***)****** 15 ( I** ) 16 ( I***)****** 16 ( *I ) 17 ( I***)***** 17 ( I* ) 18 ( I***)***** 18 (***I ) 19 ( I***)**** 19 ( I* ) 20 ( I***)**** 20 ( I** ) 21 ( I***)**** 21 ( **I ) 22 ( I***)*** 22 ( I ) 23 ( I***)*** 23 ( I* ) 24 ( I***)*** 24 ( I ) 25 ( I***)** 25 ( I ) 26 ( I***)** 26 ( **I ) 27 ( I***)** 27 ( I ) 28 ( I***)** 28 ( I* ) 29 ( I***)* 29 ( I** ) 30 ( I***)* 30 ( I* ) -2 SD +2 SD -2 SD +2 SD

PACF of lags 1-30 PACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .++++++++++++++++++++++++.+++++++++++++++++++++++. .+++++++++++++++++++++++++.+++++++++++++++++++++++. 1 ( I**)******************* 1 ( I* ) 2 ( I**) 2 (**I ) 3 ( *I ) 3 (**I ) 4 ( I ) 4 ( *I ) 5 ( I* ) 5 (**I ) 6 ( I*** 6 ( I**) 7 ( I ) 7 ( I* ) 8 ( I ) 8 ( I ) 9 ( I ) 9 ( I ) 10 ( *I ) 10 ( *I ) 11 (**i ) 11 (**I ) 12 ( I ) 12 ***I ) 13 ( I* ) 13 ( *I ) 14 ( I ) 14 ( I* ) 15 ( I ) 15 ( I ) 16 ( *I ) 16 ( *I ) 17 ( I ) 17 ( *I ) 18 (**I ) 18 ***I ) 19 ( I* ) 19 ( I**) 20 ( I* ) 20 ( I**) 21 ***I ) 21 ( I ) 22 ( I*** 22 ( I ) 23 ( I ) 23 *(**I ) 24 ( I ) 24 (**I ) 25 ( *I ) 25 ( I ) 26 ( I*** 26 ( I ) 27 ( I* ) 27 ( I ) 28 ( I ) 28 ( I* ) 29 ( I ) 29 ( I* ) 30 ( *I ) 30 ( I**) -2 SD +2 SD -2 SD +2 SD

<그림 22> 비정태적인 시계열 <그림 23> 없소리 시계열

(추세) (차이화시킨 자료)

Page 108: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 96 -

ACF of lags 1-30 ACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .++++++++++++++++++++++++.++++++++++++++++++++++++. .+++++++++++++++++++++++.++++++++++++++++++++++++. 1 ( I**)******************* 1 ****************(**I ) 2 ( I****)********* 2 ( I***)*********** 3 ( I****)**** 3 ********(***I ) 4 ( I****)** 4 ( I****)** 5 ( I****) 5 **(****I ) 6 ( I* ) 6 ( I****)* 7 ( I ) 7 (****I ) 8 ( *I ) 8 ( I*** ) 9 ( **I ) 9 ( **I ) 10 (****I ) 10 ( I* ) 11 *****I ) 11 ( I ) 12 (****I ) 12 ( *I ) 13 ( ***I ) 13 ( *I ) 14 ( *I ) 14 ( I** ) 15 ( *I ) 15 ( I** ) 16 ( **I ) 16 ( *I ) 17 ( **I ) 17 ( I* ) 18 ( ***I ) 18 ( ***I ) 19 ( **I ) 19 ( I ) 20 ( *I ) 20 ( I** ) 21 ( ***I ) 21 ( **I ) 22 ( **I ) 22 ( I* ) 23 ( *I ) 23 ( *I ) 24 ( *I ) 24 ( I** ) 25 ( *I ) 25 ( **I ) 26 ( I ) 26 ( I** ) 27 ( I ) 27 ( *I ) 28 ( I* ) 28 ( *I ) 29 ( I** ) 29 ( I** ) 30 ( I*** ) 30 ( *I )

-2 SD +2 SD -2 SD +2 SD

PACF of lags 1-30 PACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .+++++++++++++++.+++++++++.+++++++++++++.+++++++++. .++++++++++++++.+++++++++.++++++++++++++.+++++++++. 1 ( I**)****************** 1 ****************(**I ) 2 ***I ) 2 ( I* ) 3 ( *I ) 3 ***I ) 4 ( *I ) 4 *(**I ) 5 ( I ) 5 ***I ) 6 ( I*** 6 ( I**) 7 (**I ) 7 ( I ) 8 ***I ) 8 ( I* ) 9 ( I ) 9 ( I ) 10 ( I* ) 10 ***I ) 11 ( I ) 11 (**I ) 12 ( I ) 12 ( *I ) 13 ( *I ) 13 ( *I ) 14 ( *I ) 14 ( I*** 15 ( I* ) 15 ( I ) 16 (**I ) 16 ( I ) 17 ( I**) 17 ( *I ) 18 (**I ) 18 *(**I ) 19 ( I ) 19 ( *I ) 20 ( I* ) 20 ( I*** 21 ***I ) 21 ( I ) 22 ( I**)* 22 *(**I ) 23 ( I ) 23 ( *I ) 24 ( I ) 24 ( *I ) 25 ( *I ) 25 ( I* ) 26 ( *I ) 26 ( *I ) 27 ( I**)* 27 (**I ) 28 ( I* ) 28 ( I* ) 29 ( I* ) 29 ( I* )

30 ( I* ) 30 ( I* ) -2 SD +2 SD -2 SD +2 SD

<그림 24> 아리마(1,0,0)과정 <그림 25> 아리마(1,0,0)과정

(φ1이 +인 경우) (φ1이 -인 경우)

Page 109: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 97 -

ACF of lags 1-30 ACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .++++++++++++++++++++++++.++++++++++++++++++++++++. .+++++++++++++++++++++++.++++++++++++++++++++++++. 1 ( I**)******************* 1 **********(**I ) 2 ( I****) 2 ( I* ) 3 ( ***I ) 3 ( **I ) 4 (****I ) 4 ( I ) 5 ( ***I ) 5 (****I ) 6 ( I** ) 6 ( I****)* 7 ( I* ) 7 ( *I ) 8 ( *I ) 8 ( I** ) 9 ( **I ) 9 ( I ) 10 (****I ) 10 ( I* ) 11 *****I ) 11 ( I ) 12 ( I*** ) 12 ( I ) 13 ( ***I ) 13 ( *I ) 14 ( I* ) 14 ( I** ) 15 ( I** ) 15 ( I** ) 16 ( **I ) 16 ( *I ) 17 ( I* ) 17 ( I* ) 18 ( **I ) 18 ( ***I ) 19 ( I ) 19 ( I ) 20 ( *I ) 20 ( I** ) 21 ( *I ) 21 ( **I ) 22 ( I ) 22 ( I* ) 23 ( *I ) 23 ( *I ) 24 ( I** ) 24 ( I ) 25 ( *I ) 25 ( **I ) 26 ( I ) 26 ( I* ) 27 ( I ) 27 ( I ) 28 ( I* ) 28 ( *I ) 29 ( **I ) 29 ( I* ) 30 ( I*** ) 30 ( *I )

-2 SD +2 SD -2 SD +2 SD

PACF of lags 1-30 PACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .+++++++++++++++++++++++++.+++++++++++++++++++++++. .++++++++++++++++++++++++.++++++++++++++++++++++++. 1 ( I**)****************** 1 ****************(**I ) 2 *********I ) 2 ********* I* ) 3 ( *I ) 3 *****I ) 4 ( *I ) 4 (**I ) 5 ( I ) 5 ( *I ) 6 ( I*** 6 ( I**) 7 (**I ) 7 ( I ) 8 ***I ) 8 ( I* ) 9 ( I ) 9 ( I ) 10 ( I* ) 10 ***I ) 11 ( I ) 11 (**I ) 12 ( I ) 12 ( *I ) 13 ( *I ) 13 ( *I ) 14 ( *I ) 14 ( I*** 15 ( I* ) 15 ( I ) 16 (**I ) 16 ( I ) 17 ( I**) 17 ( *I ) 18 (**I ) 18 (**I ) 19 ( I ) 19 ( *I ) 20 ( I* ) 20 ( I*** 21 ***I ) 21 ( I ) 22 ( I**)* 22 (**I ) 23 ( I ) 23 ( *I ) 24 ( I ) 24 ( *I ) 25 ( *I ) 25 ( I* ) 26 ( *I ) 26 ( *I ) 27 ( I**)* 27 (**I ) 28 ( I* ) 28 ( I* ) 29 ( I* ) 29 ( I* )

30 ( I* ) 30 ( I* ) -2 SD +2 SD -2 SD +2 SD

<그림 26> 아리마(2,0,0)과정 <그림 27> 아리마(0,0,1)과정

(φ1이 +이고, φ2가 –인 경우) (θ1이 +인 경우)

Page 110: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 98 -

ACF of lags 1-30 ACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .++++++++++++++++++++++++.++++++++++++++++++++++++. .+++++++++++++++++++++++.++++++++++++++++++++++++. 1 ( I**)********* 1 ****************(**I ) 2 ***(****I ) 2 ( I***)************* 3 ( I****) 3 *****(***I ) 4 ( I****) 4 ( I****)** 5 ( I****) 5 (****I ) 6 ( I* ) 6 ( I** ) 7 ( I ) 7 ( I ) 8 ( *I ) 8 ( I ) 9 ( **I ) 9 ( **I ) 10 (****I ) 10 ( I* ) 11 *****I ) 11 ( I ) 12 ( **I ) 12 ( *I ) 13 ( I ) 13 ( I ) 14 ( I ) 14 ( I** ) 15 ( *I ) 15 ( I** ) 16 ( **I ) 16 ( *I ) 17 ( I** ) 17 ( I* ) 18 ( ***I ) 18 ( ***I ) 19 ( I* ) 19 ( I ) 20 ( I ) 20 ( I** ) 21 ( I** ) 21 ( **I ) 22 ( **I ) 22 ( I* ) 23 ( *I ) 23 ( *I ) 24 ( I ) 24 ( I*** ) 25 ( I ) 25 ( **I ) 26 ( **I ) 26 ( I** ) 27 ( I ) 27 ( *I ) 28 ( I* ) 28 ( *I ) 29 ( I** ) 29 ( I** ) 30 ( I*** ) 30 ( *I )

-2 SD +2 SD -2 SD +2 SD

PACF of lags 1-30 PACF of lags 1-30 -1.000 0 1.000 -1.000 0 1.000 .+++++++++++++++.+++++++++.+++++++++++++.+++++++++. .++++++++++++++.+++++++++.++++++++++++++.+++++++++. 1 ( I**)********** 1 ****************(**I ) 2 *************I ) 2 *****(**I ) 3 ( I**)** 3 ***I ) 4 ***(**I ) 4 (**I ) 5 ( I*** 5 ***I ) 6 ( I**) 6 ( I**) 7 (**I ) 7 ( I ) 8 ***I ) 8 ( I* ) 9 ( I ) 9 ( I ) 10 ( I* ) 10 ***I ) 11 ( I ) 11 (**I ) 12 ( I ) 12 ( *I ) 13 ( *I ) 13 ( *I ) 14 ( *I ) 14 ( I*** 15 ( I* ) 15 ( I ) 16 (**I ) 16 ( I ) 17 ( I**) 17 ( *I ) 18 (**I ) 18 (**I ) 19 ( I ) 19 ( *I ) 20 ( I* ) 20 ( I*** 21 ***I ) 21 ( I ) 22 ( I**)* 22 *(**I ) 23 ( I ) 23 ( *I ) 24 ( I ) 24 ( *I ) 25 ( *I ) 25 ( I* ) 26 ( *I ) 26 ( *I ) 27 ( I**)* 27 (**I ) 28 ( I* ) 28 ( I* ) 29 ( I* ) 29 ( I* )

30 ( I* ) 30 ( I* ) -2 SD +2 SD -2 SD +2 SD

<그림 28> 아리마(0,0,2)과정 <그림 29> 아리마(1,0,1)과정

(θ1이 +이고, θ2가 -인 경우)

Page 111: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 99 -

으로 감소하는 형태를 띠지만, 부분자동상관함수(PACF)는 처음의

p 시차가 0이 아니고, 그 이후 k 시차부터 0일 때는 자동회귀모형

으로 추정할 수 있다.

이때 부분자동상관함수(PACF)의 형태가 시차 1에서 0이 아닌

데, 시차 2에서부터 0인 경우에는 AR(1)모형으로 추정할 수 있다

(<그림 24>, <그림 25> 참조).

반면에 부분자동상관함수(PACF)의 형태가 시차 1과 2에서 0이

아니고, 시차 3에서부터 0인 경우에는 AR(2)모형으로 추정할 수

있다(<그림 26> 참조).

④ 만약 이와는 반대로 부분자동상관함수(PACF)가 시차 1에서

튀어 나온 것이 제곱으로 감소하는 형태를 띠지만, 자동상관함수

(ACF)는 처음의 q 시차가 0이 아니고, 그 이후 k 시차부터 0일

때는 움직평균모형으로 추정할 수 있다.

이때 자동상관함수(ACF)의 형태가 시차 1에서 0이 아닌데, 시

차 2에서부터 0인 경우에는 MA(1)모형으로 추정할 수 있다(<그

림 27> 참조).

반면에 자동상관함수(ACF)의 형태가 시차 1과 2에서 0이 아니

고, 시차 3에서부터 0인 경우에는 MA(2)모형으로 추정할 수 있다

(<그림 28> 참조).

⑤ 한편, 이 둘이 혼합되어 나타나는 형태도 있다. 예컨대, 자동

회귀함수와 부분자동함수의 형태에서 p와 q가 k시차에서 튀어나

온 것이 제곱으로 감소될 때가 그러하다(<그림 29> 참조).

⑥ 만약 계절적 영향이 나타나는 자료의 경우에는 자동회귀함수

와 부분자동함수의 형태에서 계절적 시차가 나타나게 된다. 예컨

대, 일 년의 주기를 보여주는 자료에서는 1, 13, 25, 37 등의 시

차에서, 사계절의 주기를 보여주는 자료에서는 1, 5, 9, 13 등의

시차에서 자동상관함수값이나 부분자동상관함수값이 0이 아님을

보여준다. 쉽게 말해서 통계적으로 볼 때 이들 값들이 0과 다름이

Page 112: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 100 -

없어야 없소리라 할 수 있는데, 계절적 시차에서 이들이 튀어나와

계절적 비정태성을 보여주는 것이므로 계절적 차이화를 통해 정태

성을 확보한 후 모형을 추정하여야 한다.

3) 모수값의 추정 및 진단

모형을 추정하였으면 이제 모수값을 추정하여 그 모수값들이 통

계적으로 의미가 있는지를 판단한다. 만약 모수값들이 유의하지

않으면 자동회귀함수와 부분자동함수를 다시 검토하여 새로운 모

형을 추정하여야 한다.

만약 이들 모수값들이 정태성의 한계와 전환성의 한계를 벗어난

다면, 다시 말해서 자동회귀모형의 계수값 φ나 움직평균모형의 계

수값 θ의 값들이 –1보다 작거나 1보다 크면, 이 자료는 정태성을

확보하지 못한 것이므로 자료를 차이화시키거나, 로그를 취하여

자료를 변환시키거나, 자동회귀 요소나 움직평균 요소를 다시 규

정함으로써 잠정적인 새로운 모형을 추정해야 한다

잠정적 모형이 통계적으로 적절하다고 판단되면, 찌꺼기들을 분

석하여 이들이 서로 독립적이고, 없소리 상태로 분포한 것인지를

파악한다. 이는 찌꺼기들의 분포상태를 나타내는 자동상관함수와

부분자동상관함수의 펼친그림을 통해 보통은 손쉽게 파악할 수도

있다.

그러나 통계적 유의수준 0.05를 벗어나는 찌꺼기들이 간혹 우연

히 나타날 수도 있어 판단이 어려울 때가 있다. 이때 사용하는 것

이 Q 통계값이다.

찌꺼기에 대한 Q 통계값을 구하여 이것이 유의하면 그 자료는

없소리 상태라 할 수 없기 때문에 잠정적 모형은 부적절한 것이어

서 거부된다. 반대로 Q 통계값이 통계적으로 볼 때 유의하지 않으

면 잠정적 모형의 찌꺼기들은 없소리와 다름없다고 할 수 있으니

그 모형은 채택된다.

Page 113: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 101 -

4) 모형의 채택

아리마모형의 채택은 간결성의 원칙(parsimonious principle)과

대표성의 원칙(representative principle)에 따라 이루어진다.

아리마모형은 자료의 정태성을 확보하고, 잠정적 모형을 만들어

모수값을 추정하고 그것들을 진단하는 과정을 계속 반복함으로써

만들어진다. 따라서 많은 시간과 노력이 요구되는 까닭에 통계적

으로 적절한 모형을 만들어내면 그 모형을 채택한다. 이를 간결성

의 원칙이라 한다.

이론적으로는 경험적 시계열 자료를 가장 잘 나타내주는 모형이

제일 좋은 모형이다. 이를 대표성의 원칙이라 한다. 그러나 이 원

칙에 따라 모형을 만들어 내려면 수많은 시간과 노력이 필요할 뿐

아니라, 경험적 자료를 잘 나타내주는 모형일수록 형태가 복잡하

고 해석이 쉽지 않다. 따라서 통계적으로 볼 때 문제가 없는 모형

이면, 대표성에도 큰 문제가 없는 것으로 볼 수 있다.

따라서 대표성의 원칙에 어긋나지 않는 모형을 찾아내면, 간결

성의 원칙에 따라 그것을 채택하는 것이 보통이다. 만약 둘 이상

의 모형이 다 적합하다고 한다면, 대표성이 더 높은 모형이 좋은

모형이라 할 수 있다.

대표성이 더 좋은 모형 여부는 AIC 통계값이나 SBC 통계값을

보고 판단한다. 곧, AIC 통계값이나 SBC 통계값이 작은 모형이

더 대표성이 높다고 볼 수 있다.

Page 114: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 102 -

둘째 갈래: 시계열모형의 기본 가정

1. 변수에 관한 가정

1) 변수의 선정에 관한 가정

시계열분석에서 사용되는 변수들은 일정한 시간적 간격을 가지

고 있는 변수들이면 분석이 가능하다.

회귀분석에서는 이론에 입각하여 회귀모형에 포함될 종속변수와

독립변수를 선정한다. 이때 종속변수에 영향을 미치는 중요한 변수

들은 반드시 모형에 집어넣어야 한다. 그렇지 않으면 계수값이 편

의(biased)될 가능성이 높고, 불일치(inconsistency)하게 된다. 반

면에 불필요한 변수들이 회귀모형에 포함되면 최소제곱추정값

(least square estimator)의 능률성(efficiency)에 문제가 생긴다.

이와 같이 회귀모형이 잘못되면 변수 선정의 오류(specification

error)를 범하게 된다.

따라서 회귀분석은 철저하게 이론에 바탕을 두고 변수를 선정하

여 올바른 회귀모형을 만들어 그 이론이 맞는지 여부를 통계기법

을 통해 검증하는 것이 목적이다. 곧, [이론-->회귀모형-->검증]

의 절차를 밟는다.

그러나 시계열분석에서는 회귀분석과는 달리 경험적 자료를 바

탕으로 모형을 만드는 것이므로 이론이 불필요하다. 다시 말해서

시계열모형을 만드는 것은 이론에 바탕을 두고 만드는 것이 아니

다. 단지 연속적인 시계열 자료들을 가지고 이 변수의 움직임을 모

형으로 만들어 해석함으로써 미래를 예측하는 데 목적을 두는 것

Page 115: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 103 -

이 시계열분석이다. 곧, [자료-->모형짓기-->해석]의 과정을 거

친다. 이때 경험적 자료를 바탕으로 만들어 낸 시계열모형은 통계

적으로 적절하여야 할 것임은 물론이다. 바로 이런 점에서 시계열

모형은 비이론적(atheoretic), 또는 비논리적 성격을 띤다고 이야

기 된다.

그렇다고 시계열분석에서 이론이 전혀 쓸모가 없는 것은 아니다.

모형 짓기 과정에서 이론이 불필요하다는 이야기일 뿐이다. 통계적

으로 적절한 시계열모형을 만들어 낸 후, 그것을 해석할 때에는 이

론이 필요하다.

이런 점에서 회귀분석과 시계열분석의 성격을 비교해 보면, 회귀

분석이 연역적이라면 시계열분석은 귀납적 성격을 띤다고 볼 수

있다.

회귀모형과 시계열모형에서 변수 선정의 가정에 관해 비교하려

면 한 변수 시계열모형보다는 여러 변수 시계열모형을 가지고 이

야기하여야 한다. 회귀모형에서의 독립변수와 종속변수처럼 여러

변수 시계열모형에서는 드는 시계열(input time-series)과 나는 시

계열(output time-series)이 있기 때문이다. 독립변수와 드는 시계

열은 원인이 되는 변수들이라 할 수 있고, 종속변수와 나는 시계열

은 결과가 되는 변수들이라 할 수 있기 때문에 이들을 놓고 변수

선정 과정에서 어떻게 다른지를 이야기하는 것이 훨씬 읽는 이들

의 이해를 도와줄 수 있는 까닭이다.

여러 변수 아리마모형(영향 모형 포함)을 만들 때에도 통계적으

로 적절한 한 변수 아리마모형들이 선행되어야 함은 물론이다. 시

계열분석에서는 통계적으로 적절한 한 변수 아리마모형들을 가지

고 여러 변수 모형을 만드는데, 이때에도 이론은 불필요하다. 특히

여러 변수 아리마모형에서는 어느 것이 독립변수이고 어떤 것이

종속변수인지를 미리 이론적으로 찾아낼 필요가 없다. 왜냐하면 시

계열모형 짓기 과정에서 제시되는 두 시계열 간의 교차상관함수를

Page 116: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 104 -

나는 시계열

ωi(B) 1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + ΣXi,t + at 1 - δi(B) 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

상수항 드는 시계열 교란항

<그림 30> 여러 변수 시계열모형의 구조

통해 어느 변수가 어느 정도의 시차를 가지고 얼마만한 영향을 미

치는지가 드러나기 때문이다.

또한 시계열분석에서는 변수 선정의 오류라는 것이 있을 수 없

다. 여러 변수 시계열모형은 ① 상수항과 ② 독립변수라 할 수 있

는 드는 시계열과 ③ 교란항으로 이루어진다(<그림 30> 참조).

여러 변수 시계열모형에서 드는 시계열과 나는 시계열은 회귀분

석에서의 독립변수와 종속변수와 비슷하고, 회귀모형에서 오차항

은 시계열모형에서의 교란항과 비슷하다.

그러나 회귀모형의 오차항과 시계열모형의 교란항이 띠고 있는

구조는 다르다. 시계열모형에서 교란항은 <그림 30>에서 볼 수 있

는 바와 같이 자동회귀 요소와 움직평균 요소를 가지고 있으면서

없소리 상태에 있다.

회귀모형에서는 이론에 기반을 두고 독립변수들을 선정하여 모

형에 포함시켜야 한다. 만약 꼭 들어가야 할 변수가 들어가지 않는

경우에는 통계적인 문제가 발생한다. 그렇지만, 여러 변수 시계열

모형에서는 교란항의 체계적 부분이 다른 것들을 설명해주기 때문

Page 117: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 105 -

에 회귀분석에서처럼 통계적 문제가 생기지는 않는다. 다시 말해서

회귀분석에서는 회귀모형에 포함되어야 할 변수가 빠지는 경우 독

립변수들의 계수값이 편의(biased)될 가능성이 높으나, 여러 변수

시계열에서는 교란항에서 움직평균 요소와 자동회귀 요소가 모형

으로 잡히면서 없소리 상태를 유지하기 때문에 꼭 필요한 변수가

빠졌다고 추정된 모수값들이 편의될 가능성은 거의 없다.

따라서 시계열분석 논문을 회귀분석의 관점에서 보아서는 안 된

다. 예컨대, 종속변수 시계열을 설명해주는 중요한 독립변수가 시

계열모형에 포함되지 않았기 때문에 시계열모형에 포함된 드는 시

계열이 나는 시계열에 미친 영향을 추정한 모수값이 잘못되었다는

비판은 잘못된 것이다.

마찬가지로 중요한 변수나 통제되어야 할 변수가 빠진 모형이기

때문에 잘못된 모형이라는 비판도 잘못된 것이다. 아무리 중요한

변수나 통제되어야 할 변수가 시계열모형에 포함되지 않았다고 하

더라도 그것이 모수값에 미치는 영향은 거의 없다. 모형에 들어가

지 않은 변수들은 없소리인 교란항에서 자동회귀 요소와 움직평균

요소가 대신해주고 있기 때문이다.

만약 중요한 독립변수라고 생각되는 변수가 빠졌다고 생각한다

면, 그 변수의 시계열 자료를 한 변수 모형으로 만들고, 드는 시계

열로 삼아 나는 시계열과의 관계를 파악하기 위해 여러 변수 모형

을 만들어 보면 되는 것이다.

이런 점 때문에 여러 변수 시계열모형을 만든다고 하더라도 필

요한 변수가 빠졌으니 모형의 구축이 잘못되었다는 말은 할 수 없

는 것이다. 다시 말해서 시계열모형 짓기 과정은 비이론적이다. 단

지 경험적 자료만 가지고 각각의 한 변수 모형을 만들고, 이들의

관계를 찾아내기 위하여 여러 변수 모형을 추정한 후 진단 과정을

통해 통계적으로 유의한 모형을 선택하는 것이기 때문이다.

물론 이론이나 상식을 바탕으로 필요한 변수들을 찾아낼 수는

Page 118: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 106 -

있다. 그리고 그러한 변수들에 관한 경험적 자료들을 가지고 그 변

수들의 과거 행적을 대표할 수 있는 한 변수 모형을 만들어 내고,

그렇게 만든 한 변수 모형들을 가지고 여러 변수 모형을 만들어내

면 여러 변수들의 관계가 시차와 함께 나타나는 것이다.

그렇지만 모형을 구축하는 과정에 이론이 개입될 여지는 전혀

없다. 여러 변수 모형에서 어떤 시계열이 독립변수로 작용하고 어

떤 시계열이 종속변수로 작용할 것인가는 이론에 따라 결정되는

것이 아니라 한 변수 모형들을 가지고 교차상관함수를 구하여 그

결과에 따라 결정되는 것이기 때문이다.

그렇다면 어떤 변수들을 선정하여 시계열모형으로 만드는 것일

까? 시계열모형에서는 회귀모형에서처럼 변수 선정에 관한 특별한

가정은 없다. 곧, 지금까지 논의한 바와 같이 회귀모형에서처럼 변

수 선정의 오류를 범하지 않기 위해서 이론에 바탕을 두고 변수를

선정하는 것이 아니기 때문이다. 다만 상식적으로나 이론적으로 서

로 관련이 있다고 생각하는 변수들이면 되는 것이지, 회귀분석에서

처럼 엄격한 이론적 전제를 필요로 하지는 않는 것이다. 곧, 변수

의 선정은 연구자의 관심에 따른다.

결론적으로, 모형에 필요한 변수가 선정되지 않거나, 불필요한

변수들을 모형에 넣거나 함으로써 회귀모형에서 생기는 문제들이

시계열모형에서는 별로 문제가 되지 않는다. 오히려 시계열모형에

서 문제가 되는 것은 변수의 선정이 아니라, 변수의 측정이나 자료

의 확보와 관련된 것이다.

2) 변수 측정에 관한 가정

시계열모형에서 사용되는 변수의 측정 수준이 연속변수이어야

함은 회귀분석에서와 같다.

그러나 시계열모형에서는 자료의 연속성을 가정한다. 일정 기간

동안 시계열 자료가 구비되어야 하며, 그 중간에 빠진 자료가 있으

Page 119: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 107 -

면 안 된다는 것을 가정한다. 제일 앞이나 제일 뒤의 관찰값이 빠져

있는 경우에는 분석에 큰 상관이 없다. 단지 하나의 관찰값이 없어

진 것에 불과하기 때문이다. 그러나 중간에 관찰값이 빠져 있는 경

우에는 시계열분석이 불가능하다.

물론 중간의 관찰값이 없는 경우, 빠진 관찰값 대신에 앞과 뒤의

관찰값을 평균하여 사용하는 연구자들이 없는 것은 아니나 이는 잘

못된 것이다. 왜냐하면, 빠진 값 대신에 추정값을 넣어 시계열모형

을 만들게 되면 논리적 추론에 한계를 띠기 때문이다.

맥클리어리와 헤이(McCleary and Hay, 1980: 20)에 따르면, 아

리마 시계열분석에 필요한 자료 수는 50개 이상이어야 한다. 그러

나 SAS 매뉴얼(SAS/ETS, 1985: 128)에 따르면, 30개 이상이면

분석이 가능하지만, 그 이하인 경우에는 모수 추정값에 문제가 있

을 수도 있다고 한다.

결론적으로 볼 때, 적어도 30개 이상의 시계열 관찰값들이 있어

야 하고, 중간에 빠진 값(missing value)이 없어야지만 아리마 시계

열분석을 할 수 있다.

그러나 실제로는 시계열모형 짓기 과정에서 차이화할 때, 그리고

움직평균 요소나 자동회귀 요소를 모형화하는 과정에서 자료들의

손실이 불가피하므로 이를 감안하여야 한다. 만약 차이화에 의하여

없어지는 자료가 한두 개에 불과한 경우에는 30개 이상의 자료라

해도 큰 문제는 없을 것이지만, 모형 짓기 과정에서 큰 시차 구조를

가지고 교란항의 모형이 결정되는 경우에는 없어지는 자료의 수를

감안하여 분석에 충분한 관찰값들을 확보하여야 한다.

3) 제멋대로 과정(stochastic process)

시계열 자료에서 관찰값들은 제멋대로 과정임을 가정한다. 제멋

대로 과정이란 시간의 흐름에 따라 전개되는 시계열 자료가 고정

(fixed)되어 있지 않고, 확률적 법칙을 따르면서 무작위로 분포되어

Page 120: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 108 -

있다는 의미이다(송근원, 2005: 27).

회귀분석에서는 독립변수의 값이 고정(fixed)되어 있고, 그에 대

응하는 종속변수 관찰값들이 회귀선을 중심으로 여러 개가 분포되

어 있음을 가정한다. 다른 말로 한다면, 독립변수의 값에 대응하는

종속변수의 값들을 잘 대표할 수 있는 선이 회귀선이라 할 수 있

다. 이 회귀선은 독립변수와 종속변수의 관계를 단순화시켜 잘 나

타내주는 것으로서 곧은줄꼴(linearity) 형태를 띠고 있다고 가정한

다.

그러나 시계열 자료들은 시간의 흐름에 따라 자료값들이 무작위

로 분포되어 있다. 따라서 시계열 자료는 무작위적(randomness)

특성을 띤다.

그 대표적인 보기로 “발길 닿는 대로 걷는 과정(random walk

process)”을 들 수 있다. 현재 시점의 나는 과거 모든 시점에서 존

재하던 나의 총합이라 볼 수 있다. 이는 과거 모든 시점에서의 내가

시간의 흐름에 따라 변화해온 결과이기도 하다. 쉽게 말해서 현재

의 나는 과거의 나에 의해 영향을 받아 형성된 것이다. 여기에서

“시간의 흐름에 따라 변화해온 결과”라는 말 속에는 “내가 알든 모

르든, 의도하든 안 하든, 모든 요인들이 작용하여 그때그때의 변화

를 만들어낸 것이 쌓인 결과”라는 뜻이고, 이는 결과적으로 “확률

적 분포를 따른 무작위 요소들의 합”이라는 말로 대치시킬 수 있을

것이다.

이처럼 시계열 자료에서 분석하는 과거 시점의 자료들은 제멋대

로 과정(stochastic process)을 따른다고 가정한다. 이 말은 다른

말로 한다면, “이 자료들이 반드시 곧은줄꼴(linearity)을 띠고 있지

는 않을 것이다.”라는 말로 표현할 수 있다. 곧, 곧은줄꼴도 있을지

는 모르나, 반드시 그런 것은 아니라는 것을 뜻한다. 굽은줄꼴

(curve-linear)일 수도 있고, 제멋대로줄꼴도 있을 수 있다(아마도

제멋대로줄꼴이 거의 대부분일 것이다).

Page 121: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 109 -

한 변수 시계열모형은 이러한 과거 시점 자료들의 흔적을 바탕으

로 정태성 있는 자료로 만들어 모형화한 한 것이고, 여러 변수 시계

열모형은 두 개 이상의 한 변수 시계열모형을 가지고, 이들의 관계

를 나타내기 위해 만들어낸 시계열모형이다.

비록 여러 변수 시계열모형은 여러 변수 회귀모형과 비슷하게 보

이지만, 회귀모형에서는 곧은줄꼴을 가정하는데 반하여, 여러 변수

시계열모형에서는 곧은줄꼴을 가정하지 않는다는 점이 다른 점이

다.

2. 교란항에 관한 가정

1) 정태성(stationarity)의 가정

시계열 자료는 제멋대로 과정(stochastic process)을 보여준다.

이러한 특성 때문에 원래의 시계열자료 자체만으로 안정적인 시계

열모형을 만들어 내는 것은 특별한 경우를 제외하고는 불가능한

경우가 대부분이다.

물론 어떤 시계열 자료의 경우에는 일정한 값을 중심으로 일정

한 범위 안에서 무작위로 분포되어 있는 것들도 있을 수 있다. 이

런 자료는 일정한 값을 중심으로 분포되어 있으므로 안정적인 꼴

을 띠고 있다 할 수 있다. 다른 말로 한다면, “이 자료는 정태적

(stationary)이다.”라고 말 할 수 있다. 따라서 이러한 자료는 시간

의 흐름에 관계없이 일정한 값을 중심으로 일정한 범위 안에 분포

되어 있으므로 쉽게 다음과 같은 모형으로 만들 수 있다.

Yt = θ0 +at

Page 122: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 110 -

이 모형은 변수 Y가 시간의 흐름에 관계없이 θ0를 중심으로 일

정하게 분포하고 있음을 보여준다. 다시 말해서 변수 Y는 균형 상

태 θ0로 대표될 수 있다.

그러나 대부분의 시계열 자료는 정태적이라기보다는 제멋대로이

고 동태적(dynamic)이다. 이와 같은 경우에는 그 어떤 값도 대표

성을 보여주지 못한다. 따라서 이 자체를 그대로 모형화하기는 어

렵다. 따라서 자료를 정태적으로 만들어야 모형화가 가능하다.

이를 정태성(stationarity)의 가정이라 한다. 다시 말해서 자료의

정태성이 확보되어야만 모형화가 가능한 것이다.

정태성의 가정은 좁은 의미에서는 확률 분포가 정태적임을 의미

한다. 그러나 넓은 의미에서는 평균, 변량, 공변량이 정태적이어야

함을 가정한다.

만약 교란항들이 일정한 범위 안에 존재하지 않고 그 범위를 벗

어난다면 정태성의 가정에 어그러지는 것이다. 이때에는 정태성을

띤 자료로 전환하여야 한다.

이를 좀 더 자세히 논의한다면, 교란항의 기본 모형

1 - θ1B - ‧‧‧‧‧‧ - θpBp

at 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

에서 자동회귀 모수값과 움직평균 모수값들인 φ1 ‧‧‧‧‧‧ φq와 θ1 ‧‧‧‧‧‧ θp

는 각각 1과 -1 사이에 있어야 한다. 또한 이들 자동회귀 모수값들

을 더한 것이나 뺀 것 역시 1과 -1 사이에 있어야 하며, 움직평균 모

수값들을 모두 더한 것과 뺀 것 역시 마찬가지이다.

이를 각각 정태성의 한계(bounds of stationarity), 전환성의 한계

(bounds of invertability)라 부른다. 만약 정태성의 한계에서 벗어

나거나 전환성의 한계에서 벗어난다면, 그 시계열은 정태적이라 할

수 없다.

Page 123: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 111 -

2) 같게퍼짐(homoscedasticity)의 가정

시계열 자료에서는 같게퍼짐의 가정이 거의 불필요하다.

한 변수 시계열모형에서는 시간의 흐름에 따른 한 변수의 흐름

만이 존재하는 까닭에 같게퍼짐의 가정은 무의미하다.

한편 여러 변수 시계열모형에서는 같은 시간에 대응하는 두 가

지 이상의 변수가 존재하는 까닭에 회귀분석에서 가정하는 같게퍼

짐의 가정이 적용되지 않을까 생각해볼 수 있다. 그렇지만, 여러

변수 모형을 만들기 위해서는 정태성을 띤 한 변수 시계열모형들

이 필요하기 때문에 시간의 흐름에 따른 정태적 모형들 사이에서

는 이론상으로는 달리퍼짐이 나타날 수 없다.

다만, 삐진자(outlier)가 존재하거나, 정도는 심하지 않으나 정태

성을 벗어나는 교란항들이 존재할 수도 있는 까닭에 두 변수간의

교차상관함수(cross-correlation function)에 영향을 미칠지도 모

르는 각 시계열내 상관관계(within-series correlation)를 미리 제

거하여야 한다.

따라서 두 변수간의 교차상관함수를 구하기 전에 이들 시계열들

을 미리 앞흰 시계열(pre-whitened series)로 처리할 필요가 있

다.11) 왜냐하면 시계열 내에 존재할 수도 있는 무작위적이 아닌 잡

소리들(non-random noise)을 미리 제거시킨 후에 교차상관관계를

구해야 두 시계열의 관계를 정확히 찾아낼 수 있기 때문이다.

그 방법은 드는 시계열(input time series)에 관한 한 변수 모형

을 전위(invert)하여 양 쪽 시계열에 적용시킴으로써 교차상관관계

이전의 자동상관관계에 맞추어 각각의 시계열을 조정하는 것이다.

따라서 여러 변수 시계열모형에서도 같게퍼짐의 가정 따위는 별로

문제가 되지 않는다고 할 수 있다.

11) 앞흰 시계열(pre-whitened series)이란 두 시계열 내에 존재할 수도

있는 무작위적이 아닌 잡소리들(non-random noise)을 미리 제거시켜

없소리로 처리한 시계열을 말한다.

Page 124: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 112 -

이와 같이 회귀분석에서 가정하는 같게퍼짐의 가정은 시계열분석

에서는 불필요하다고 할 수 있다.

3) 여러줄꼴(multicollinearity)에 관한 가정

회귀분석에서는 독립변수들끼리 독립성을 가정한다. 이 가정이

심하게 어긋나는 경우, 예컨대, 종속변수와의 관계보다 독립변수와

의 관계가 더 높게 나타나는 경우, 자연스럽게 여러줄꼴의 문제점

이 나타난다. 따라서 회귀분석에서는 “독립변수들 사이의 관계가

아주 밀접해서는 안 된다”고 가정하는데, 이것이 여러줄꼴에 관한

기본 가정이다.

여러 변수 아리마모형에서도 회귀분석에서와 마찬가지로 독립변

수라 할 수 있는 드는 시계열들 사이의 독립성이 가정된다. 그러나

회귀모형에서처럼 여러줄꼴의 문제가 심각하게 나타나는 경우는 거

의 없다. 여러 변수 시계열분석에서는 정태성을 확보한 한 변수 시

계열들을 가지고 모형 짓기를 하는 까닭에 여러줄꼴의 가정이 많이

완화된다.

다만, 합성된 아리마모형(compound ARIMA model)에서는 그

성질상 여러줄꼴의 문제가 나타나기 마련이다. 그러나 여러줄꼴의

문제는 정도의 문제이지 존재의 문제가 아니기 때문에, 심각한 문

제로 등장하는 경우를 제외하고는 큰 문제가 되지는 않는다.

또한 여러 변수 시계열분석에서는 모형 짓기 과정을 통해 심각한

여러줄꼴의 문제가 나타나는 경우 쉽게 발견할 수 있고, 발견되는

경우 그 모형을 수정할 수 있다. 곧, 여러 변수 아리마모형 짓기 과

정에서 이루어지는 반복적인 확인, 추정, 진단 과정을 통해 드는 시

계열들의 모수 추정값들 사이에 나타나는 상관관계를 파악할 수 있

기 때문이다(<그림 31> 참조).

예를 들어 설명하면, <그림 31>에서 독립변수라 할 수 있는 드는

시계열 cong(NUM1)과 cong(NUM1,1)의 상관관계는 0.263이고,

Page 125: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 113 -

Correlations of Parameter Estimates

Variable m m m cong cong Parameter MU AR1,1 AR1,2 NUM1 NUM1,1

m MU 1.000 -0.057 0.084 -0.059 0.027

m AR1,1 -0.057 1.000 -0.604 -0.189 0.074

m AR1,2 0.084 -0.604 1.000 0.154 -0.063

cong NUM1 -0.059 -0.189 0.154 1.000 0.263

cong NUM1,1 0.027 0.074 -0.063 0.263 1.000

<그림 31> 모수 추정값들의 상관관계

m(AR1,1)의 m(AR1,2)의 상관관계는 -.604이며 다른 것들의 상관

관계는 모두 0.2 이하이다. 여러줄꼴이 문제가 되는 것은 보통 상관

관계가 0.8이상인 경우이므로, 이 모형에서는 여러줄꼴이 큰 문제

가 되지 않는다고 진단할 수 있다.

4) 드는 시계열과 교란항과의 독립성 가정

회귀모형에서는 독립변수와 오차항 사이에 관련성이 없다는 가

정이 있는데, 시계열모형에서도 비슷한 가정이 있다. 곧, 드는 시계

열과 교란항과의 독립성 가정이 그것이다.

그렇지만, 이 가정 역시 여러 변수 시계열모형을 만드는 과정,

곧, 반복적인 확인, 추정, 진단 과정을 통해 쉽게 확인할 수 있다.

곧, 모형짓기 과정에서 드는 시계열과 찌꺼기들과의 교차상관관계

를 파악할 수 있는 까닭에 이러한 가정이 충족되지 않는 모형은 받

아들여지지 않는다(<그림 32> 참조).

보기로 든 <그림 32>에서 드는 시계열 cong과 찌꺼기의 교차상

관관계를 보면, 시차 0에서는 0.003, 시차 1에서는 –0.020, 시차 2

에서는 –0.006, 시차 3에서는 –0.227, 시차 4에서는 –0.108, 시차

5에서는 –0.111임을 보여준다. 비록 시차 3에서 cong과 찌꺼기의

상관관계가 –0.227로 나타나나, 이것이 크게 문제가 되지는 않는

Page 126: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 114 -

Crosscorrelation Check of Residuals with Input cong

To Chi- Pr > Lag Square DF ChiSq -------------Crosscorrelations-----------

5 6.86 5 0.2313 0.003 -0.020 -0.006 -0.227 -0.108 -0.111

11 11.30 11 0.4183 0.017 0.021 0.097 -0.049 -0.010 0.191

17 14.10 17 0.6602 0.024 0.082 -0.008 0.003 0.152 -0.022

23 22.12 23 0.5129 -0.019 -0.037 0.250 -0.029 0.084 -0.130

<그림 32> 드는 시계열과 교란항과의 교차상관관계

다. 첫 번째 시차 6개에 대한 카이제곱 값은 6.86이고, 그 확률값이

0.2313으로 0.05보다 크기 때문이다. 만약 그 확률 값이 0.05 이하

이면, 찌꺼기들과 드는 시계열 사이의 독립성 가정에 어긋나는 것

이므로 모수값에 대한 추정을 다시 하여야 한다. <그림 32>를 놓고

전체적으로 판단해 볼 때, 찌꺼기들과 드는 시계열 cong사이에는

서로 독립적이라 할 수 있다.

5) 교란항끼리의 독립성 가정(no serial correlation)

오차항끼리는 자동상관관계가 없다는 회귀분석에서의 가정과 마

찬가지로 시계열분석에서도 교란항들은 서로 독립적이어야 한다.

이는 교란항에서 나타나는 찌꺼기들(residuals) 사이에 자동상관관

계가 존재하지 않아야 한다는 것을 의미한다.

시계열모형에서는 모형 짓기 과정에서 움직평균 요소와 자동회

귀요소를 찾아내어 모형화하는 까닭에 찌꺼기들 사이의 자동상관

관계는 거의 문제가 되지 않는다. 곧, 모형 짓기 과정에서 반복적

인 확인, 추정, 진단 과정을 통해 찌꺼기들 사이에 자동상관관계를

쉽게 찾아낼 수 있다.

시계열모형 짓기 과정에서는 자동상관함수(ACF)와 부분자동상

관함수(PACF)를 가지고 교란항들 사이에 자동상관관계가 존재하

Page 127: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 115 -

Autocorrelation Check for White Noise

To Chi- Pr > Lag Square DF ChiSq ----------------Autocorrelations----------------

6 74.20 6 <.0001 0.702 0.414 0.241 0.101 -0.006 -0.074 12 80.11 12 <.0001 -0.064 -0.039 0.003 0.071 0.158 0.132 18 110.80 18 <.0001 0.100 0.075 -0.029 -0.207 -0.314 -0.313 24 126.55 24 <.0001 -0.263 -0.183 -0.092 -0.042 0.008 0.115

<그림 33> 없소리 점검을 위한 자동상관관계

는지를 파악하여, 자동상관관계가 있을 경우에는 새로운 잠정적 모

형을 다시 추정하고 진단하는 과정을 밟는다.

이는 교란항이 없소리(white noise) 상태에 있음을 의미하며, 모

형 짓기 과정에서 쉽게 확인할 수 있다.

예컨대, 아래 <그림 33>은 없소리 점검을 위한 자동상관관계를

보여준다.

<그림 33>은 시차 1에서 0.702, 시차 2에서 0.414, 시차 3에서

0.241, 시차 4에서 0.101, 시차 5에서 –0.006, 시차 0.074 등의

상관관계를 보여준다, 이는 모형에서 자동상관이 존재함을 보여주

는 것이다. 곧, 교란항이 없소리 상태라 할 수 없는 것이다.

<그림 33>을 보고 교란항들의 독립성 가정이 어긋나는지 아닌지

를 판단하려면, 시차를 띤 교란항들의 관계에 관한 카이제곱의 확

률값이 0.05 이하인지를 살펴보면 된다.

<그림 33>은 카이 제곱값의 확률값들이 모두 .0001 이하이므로

시차를 띤 교차항들 사이에는 자동상관관계가 존재하고 있다는 것

을 알려준다.

한편, 여기에서 알 수 있는 또 다른 것은 교차항들 사이의 자동

상관관계가 시차 1, 2, 3에서 급속히 감소하고 있다는 점이다. 이

는 이 자료의 차이화(differencing)가 필요하다는 것을 시사해준

Page 128: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 116 -

The ARIMA Procedure

Conditional Least Squares Estimation

Standard Approx Parameter Estimate Error t Value Pr > |t| Lag

MU 7.69384 2.13647 3.60 0.0005 0 AR1,1 0.71059 0.07295 9.74 <.0001 1

Constant Estimate 2.22668 Variance Estimate 40.89011 Std Error Estimate 6.394537 AIC 637.2093 SBC 642.3587 Number of Residuals 97 * AIC and SBC do not include log determinant.

Correlations of Parameter Estimates

Parameter MU AR1,1

MU 1.000 -0.097 AR1,1 -0.097 1.000

Autocorrelation Check of Residuals

To Chi- Pr > Lag Square DF ChiSq ---------------Autocorrelations----------------

6 3.59 5 0.6102 0.107 -0.087 -0.001 -0.024 -0.054 -0.111 12 8.02 11 0.7115 -0.020 -0.036 -0.045 -0.010 0.186 0.036 18 20.55 17 0.2471 0.031 0.141 0.084 -0.136 -0.210 -0.122 24 24.09 23 0.3986 -0.096 -0.074 0.057 -0.012 -0.100 -0.013

Model for variable cong

Estimated Mean 7.693835

Autoregressive Factors

Factor 1: 1 - 0.71059 B**(1)

<그림 34> CONG에 관한 한 변수 모형: 평균값을 가진 아리마 (1,0,0) 모형

다.

따라서 이를 차이화한 모형이 <그림 34>이다. <그림 34>는 평

균값을 가진 아리마 (1,0,0) 모형을 보여주는데, 찌꺼기들의 자동상

관관계를 진단해볼 때, 시차 1에서는 0.107, 시차 2에서 –0.087,

Page 129: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 117 -

Autocorrelation Check for White Noise

To Chi- Pr > Lag Square DF ChiSq ----------Autocorrelations----------------

6 208.07 6 <.0001 0.724 0.600 0.509 0.524 0.578 0.530 12 309.15 12 <.0001 0.460 0.362 0.365 0.428 0.370 0.356 18 348.33 18 <.0001 0.260 0.259 0.247 0.215 0.249 0.171 24 352.18 24 <.0001 0.102 0.062 0.065 0.076 0.057 0.054

<그림 35> 없소리 점검을 위한 자동상관관계

시차 3에서 –0.001, 시차 4에서 –0.024, 시차 5에서 –0.0546, 시

차 –0.111 등의 상관관계를 보여준다. 따라서 찌꺼기들 사이의 자

동상관관계는 문제가 되지 않는다고 할 수 있다.

전체적으로 보아도카이제곱값의 확률값이 모두 0.05 이상이므로

이 모형에서 자동상관관계는 문제가 되지 않는다. 곧, 이 모형의

교란항은 없소리 상태라 할 수 있다. 따라서 교란항끼리의 독립성

가정에 들어맞으므로 이 모형은 받아들일 수 있다.

또 다른 예로서 <그림 35>를 보자 <그림 35>는 교란항이 없소

리가 아니라는 것, 다시 말해서 교란항의 찌꺼기들 사이에 자동상

관관계가 존재하고 있다는 것을 보여준다.

이를 좀 더 구체적으로 진단해보면, 시차 1, 2, 3, 4로 진행하면

서 자동상관이 감소하지만, 시차 5에서 다시 높아졌다가 시차 6,

7, 8, 9로 진행하면서 다시 낮아진다. 그리고는 시차 10에서 자동

상관이 다시 높게 나타났다가 그 이후에는 다시 낮아진다. 이는 새

로운 모형으로서 계절적 차이화가 필요한 계절 모형이 필요하다는

것을 시사해준다. 따라서 새로운 계절 모형을 추정하여야 한다.

Page 130: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 118 -

셋째 갈래: 시계열모형의 문제점과 대책

1. 변수와 관련된 문제

앞에서 논의한 바와 같이 시계열모형에서는 시간의 흐름에 따른

경험적 자료를 바탕으로 모형을 만드는 것이기에 일정한 시간적

간격을 가지고 있는 시계열 자료가 충분히 확보되면 변수 선정 과

정상의 문제는 존재하지 않는다.

회귀모형과 비슷한 여러 변수 시계열모형에서도 회귀분석에서처

럼 변수 선정의 오류(no specification error)란 있을 수 없다. 회

귀모형에는 이론적으로 꼭 들어가야 할 변수가 빠진다든가, 불필

요한 변수가 들어가는 경우 문제가 발생한다. 그렇지만 시계열모

형에서는 이러한 문제가 거의 발생하지 않는다. 왜냐하면 시간의

흐름이라는 또 다른 변수를 모형으로 잡아주기 때문이다. 곧, 교란

항에서 움직평균 요소와 자동회귀 요소를 사용하여 모형에 포함되

지 않은 변수들의 영향력을 통제해주기 때문이다.

1) 자료의 확보 문제

다만 변수의 측정과 관련하여 문제가 되는 것은 시계열분석에

필요한 자료를 충분히 확보할 수 있는가에 있다. 앞에서 언급한

바와 같이 적어도 30개 이상의 자료값들이 존재해야 하고, 중간에

빠진 값들이 없어야 한다.

만약 큰 시차 구조를 가지고 있는 모형을 만든다면, 그러한 시

차 구조를 감안하여 더 많은 자료값들을 확보할 수 있어야 한다.

Page 131: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 119 -

그렇지 않으면 모수 추정값에 문제가 생길 수 있다.

실제로 연별 자료는 30개 이상 확보하기가 쉽지 않다. 따라서

분기별 자료나 월별 자료가 가능하다면 이들을 이용하는 것이 좋

다. 물론 경제지표와 관련된 시계열자료는 비교적 획득하기가 쉽

다. 또한 계량화가 가능한 환경지표 등도 자료 획득이 용이하고

시계열분석이 가능하다.

그러나 사회지표에 관한 자료나 정책지표에 관한 자료들을 30

개 이상 확보하기에는 어려운 경우가 많이 있다. 정책지표 가운데

많이 쓰이는 것은 예산 자료이다. 예산 자료는 30년 이상의 연별

자료를 확보하기가 비교적 용이하고 시계열분석이 가능하다.

2) 빠진 값(missing value)의 문제

한편, 시계열 자료에서 중간에 빠진 값들이 있는 경우, 앞과 뒤

의 자료값을 평균하여 사용할 수는 있으나, 이 경우 모형을 해석

할 때 논리적 추론에 한계를 띤다. 따라서 중간에 빠진 값이 있는

경우에는 가능하면 시계열분석을 하지 않는 것이 좋다.

2. 교란항의 문제

회귀모형에서 나타나는 문제점들은 시계열모형에서는 거의 문제

가 되지 않는다. 앞에서 논의한 바와 같이 모형짓기 과정을 통해

달리퍼짐(heteroscedasticity)의 문제, 여러줄꼴(multicollinearity)

의 문제, 드는 시계열과 교란항과의 독립성 문제, 교란항끼리의 자

동상관의 문제 따위는 반복적인 확인, 추정, 진단 과정을 통해 해

결할 수 있기 때문이다(시계열분석의 모수 추정 방법은 79~89;

97~104 참조).

Page 132: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 120 -

다만 정태성의 확보가 시계열분석모형을 만드는 데 가장 기본이

된다. 곧, 아리마모형에서의 잡소리 부문을 찾아내기 위해서는 시

계열 자료가 그 수준과 변량에서 정태성을 가져야 한다.

시계열분석에서 늘 문제가 되는 것은 추세, 동향, 계절성의 존재

이다. 추세나 동향, 계절성의 존재는 차이화하는 방법으로 정태성

을 확보할 수 있다(차이화하는 방법은 79~80 및 송근원, 2005:

56~61 참조).

자료의 정태성이 확보되면, 자동회귀 요소와 움직평균 요소를

찾아내어 모형화함으로써 한 변수 모형을 만들 수 있고, 이 경우,

달리퍼짐(heteroscedasticity)의 문제나 찌꺼기들(residuals) 사이

에서 나타나는 자동상관의 문제는 완화되거나 해소된다.

1) 삐진자(outlier)의 문제와 해결 방법

한편 정태성을 확보하는 과정에서 삐진자(outlier)가 발견될 수

있다. 삐진자가 발견되는 경우에는 일단 자료를 검토하여 자료값

들이 정확한 것인가를 검토하고, 정확한 자료라면 삐진자가 나타

난 시점에서 무슨 일이 있었는가를 검토할 필요가 있다.

이러한 삐진자가 한 변수 모형의 추정에 심각한 문제를 야기하

거나 왜곡하는 경우, 그 시점에서 일어난 사건을 찾아내어 영향

모형을 만들면 된다.

그러나 여러 변수 아리마모형에서는 독립변수 시계열을 모형에

집어넣음으로써 추세, 동향, 계절성 및 삐진자(outlier)의 문제가

저절로 감소된다.

2) 여러줄꼴(multicollinearity)의 문제와 해결 방법

여러줄꼴의 문제는 여러 변수 시계열모형에서도 나타날 수는 있

으나 비교적 발견하기가 쉽고(100-101 참조), 만약 심각한 여러

줄꼴의 문제가 발견된다면, 그 해결 방법은 회귀분석에서와 같다.

Page 133: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 121 -

곧, 드는 시계열에 해당되는 변수들 사이에 여러줄꼴의 문제가 심

각하다고 판단되면,

① 여러 변수 모형을 여러 개 만들어 각각의 드는 시계열이 나는

시계열에 미치는 영향을 찾아내면 된다.

예컨대, 인구수와 국민소득이 예산에 미치는 영향을 분석하려 할

때, 인구수와 국민소득 사이에 심각한 여러줄꼴의 문제가 발견된다

고 하자.

이때 인구수와 예산의 관계도 중요하고, 국민소득과 예산의 관계

도 중요하다고 가정한다면, 회귀분석에서는 이 두 변수 가운데 하

나를 빼고 회귀모형을 추정하는 경우, 여러줄꼴의 문제는 해결할

수 있으나, 빠진 변수 때문에 변수 선정의 오류(specification

error)가 발생할 수 있다.

그러나 시계열모형에서는 각각의 여러 변수 모형을 만들어 인구

수가 예산에 미친 영향과 국민소득이 예산에 미친 영향을 찾아낼

수 있다. 그러나 이 경우에도 시계열모형에서는 변수 선정의 오류

에 대해 전혀 걱정할 필요가 없다. 빠진 변수의 영향은 교란항에서

자동회귀 요소와 움직평균 요소가 잡아주는 까닭이다.

② 또는 드는 시계열 자료값을 하나로 묶을 수 있다면, 자료를 조

작함으로써 여러줄꼴의 문제를 해결할 수 있다.

예컨대 위의 보기에서 국민소득과 예산액을 인구수로 나누어 일

인당 국민소득과 일인당 예산액으로 자료를 변환시켜 여러 변수 모

형을 만들면 여러줄꼴의 문제는 없어진다.

3. 모형과 해석의 문제

1) 모형짓기의 문제

아리마모형짓기는, 이론에 바탕을 두고 모형을 만들어 검증하는

Page 134: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 122 -

회귀분석과는 달리, 경험적 자료들의 관계 속에서 모형을 만들어내

는 것이기에 그 절차와 과정이 상당히 복잡하고 많은 시간이 든다.

한 변수 아리마모형의 경우에도 정태성을 확보한 후, 찌꺼기들의

자동상관함수(ACF)와 부분자동상관함수(PACF)를 검토하여 모형

을 추정한다. 그 다음 모수 추정값이 통계적으로 유의한지, 정태성

의 조건이나 전환성의 조건을 충족시켜주는 지를 검토하여, 그렇지

않으면 다시 모형을 추정해야 한다. 따라서 시간과 노력이 적잖이

요구된다.

나아가 영향 모형이나 여러 변수 아리마모형은 그 절차가 더더

욱 복잡하다.

만들어 놓은 한 변수 모형들을 가지고, 하나는 드는 시계열로 놓

고 다른 하나는 나는 시계열로 놓은 후, 이 두 시계열의 관계에 영

향을 미칠지도 모르는 무작위적인 요소들을 제거하기 위해 이 시

계열들을 앞흰 시계열(pre-whitening)로 처리하여야 한다.

그 다음 교차상관관계를 찾아내어 모형의 옮김함수 부분과 교란

항의 모수값들을 추정한 후, 이들이 모두 통계적 조건들을 충족하

는지를 살펴 만약 하나라도 어긋난 것이 있다면 다시 모형을 추정

하고 검토하는 과정이 반복된다.

이와 같은 절차와 과정은 많은 시간과 노력을 요하는 과정으로

서 아리마모형짓기에서 가장 큰 문제점으로 나타나지만, 아리마모

형짓기가 경험적 자료를 바탕으로 모형을 만들어나가야 하는 것이

기에 피할 수 없는 것이기도 하다.

따라서 이러한 반복적인 과정을 거치면서 통계적으로 받아들일

수 있는 모형이라면 간결성의 원칙(parsimonious principle)에 따

라 그 모형을 채택하는 전략을 택한다.

그러나 이와 같이 복잡하고 번거로운 절차와 과정을 거쳐 만든

모형은 변수들 사이의 시차 구조를 제시해주며, 변수끼리의 관계를

모형에서 잡아내기 때문에 무엇이 원인변수이고 결과변수인지에

Page 135: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 123 -

대한 가정이나 이론이 불필요하다는 장점이 있다.

또한 경험적 자료를 바탕으로 만들어낸 모형으로부터 제시된 시

차 구조를 통해 새로운 가설을 제시할 수 있어 이론의 발전에 도움

을 준다.

2) 해석의 문제

아리마모형은 경험적 자료의 과거 움직임을 정확하게 모형으로

나타낼 수는 있으나, 경험적 자료의 움직임에 가깝게 모형화할수록

그 해석이 어렵다. 특히 영향 모형에서나 여러 변수 아리마모형에

서는 모형이 복잡해질수록 해석은 점점 더 어려워진다.

결국 이 문제는 얼마나 경험적 자료를 잘 나타내면서 그 모형을

통해 얼마나 유용하게 해석할 수 있는가에 관한 정도의 문제이다.

예컨대, 여러 변수 아리마모형을 이용하여 인과관계를 추정하는

데 목적이 있다면, 여러 변수 아리마모형짓기의 기본 가정들, 곧,

모수 추정값이 통계적으로 유의하여야 하고, 모수추정값들 사이에

여러줄꼴의 문제가 없어야 하고, 찌꺼기와 드는 시계열 사이가 독

립적이어야 하며, 찌꺼기와 찌꺼기들 사이에 자동상관이 없어야 한

다는 기본 가정들이 충족되는 한, 단순하고 간단한 것이 해석에 유

리하다.

여러 변수 아리마모형의 기본꼴은

ωi(B) 1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + Σ Xi,t + at 1 - δi(B) 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

인데, 모수값 δi, ωi, θ0, θ1 ‧‧‧‧‧‧ θp, φ1 ‧‧‧‧‧‧ φq 따위가 제대로 들어갈

수록 모형의 정확성은 커진다. 다시 말해서 제멋대로 과정인 시계

열 관찰값들의 움직임에 더욱 더 근접해진다. 따라서 예측의 정확

도는 높아질 수 있으나, 이 모형에 대한 해석은 더 어려워진다.

만일 여러 변수 모형에서 드는 시계열 변수와 나는 시계열 변수

Page 136: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 124 -

의 인과관계를 설명한다면, 모수값 δi이 없는 모형, 곧 δi=0인 모형

이 훨씬 이해하기 쉽다. 만약 과거의 움직임을 가장 근사하게 표현

해주는 모형을 찾아내는 것을 목적으로 하지 않는다면, δi=0이면서

도 다른 모든 조건들을 충족시켜주는 모형이 있다면, 해석의 편의

를 위해서라도 그런 모형이 더 좋다.

Page 137: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 125 -

넷째 갈래: 시계열분석 결과의 해석

1. 한 변수 시계열분석의 사례

한 변수 시계열모형은 그 변수가 시간의 흐름에 따라 어떻게 변

화해왔는지를 보여준다. 한 변수 시계열모형의 기본꼴은

1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + at 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

인데, 상수항인 θ0는 변수 Yt가 일정한 수준에서 머무르고 있음을

말해 준다. 다시 말해서 변수 Yt를 대표해주는 값이 θ0이다. 이때

교란항 at는 0과 다름이 없는 없소리(white noise) 상태를 의미한

다. 자동회귀계수값 φ1 ‧‧‧‧‧‧ φq 및 움직평균계수값 θ1 ‧‧‧‧‧‧ θp은 이

모형의 시차 구조를 말해준다.

만약 Yt가 차이화한 자료 곧, (Yt – Yt-1)이라면, Yt 는 매년 θ0

만큼 증가한다고 말할 수 있다. 왜냐하면,

Yt = Yt – Yt-1 = θ0

Yt – Yt-1 = θ0

∴ Yt = Yt-1 +θ0

이기 때문이다. 만약 시간의 단위를 1년이라고 한다면, Yt는, 전년

도 Yt 곧, Yt-1 에 θ0만큼 더한 것이기 때문에 Yt는 매년 θ0만큼

증가한다고 해석할 수 있는 것이다.

실제 예산 자료를 가지고 해석해보자. <표 11>은 사회복지예산

Page 138: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 126 -

<표 11> 사회복지 아래 예산들의 한 변수 모형모수 추정값 표준 오차 t 값 p 시차 차이화

공공부조예산(ypaex)

MA1,1AR1,1

-0.630440.44363

0.186480.14023

-3.403.16

0.00150.0029

6 1

11

사회보험예산(ysiex)

MUMA1,1AR1,1

3.53801-0.63702-0.49669

1.09298 0.122580.15824

3.63-5.20-3.14

0.0024<.00010.0032

0 2 5

111

사회서비스예산(yswsex)

MA1,1 -0.78245 0.12637 -6.19 <.0001 8 1

의 아래 예산들인 공공부조예산과 사회보험예산 및 사회서비스예

산에 관한 한 변수 모형들을 추정한 결과를 요약해 놓은 것이다.

1) 공공부조예산

<표 11>에 따른 공공부조예산을 수리모형으로 표시하면 다음과

같다.

1 + 0.63B6 ypaext (1 - B) = at

1 – 0.44B

인데, 양변에 (1 – 0.44B)를 곱하면

ypaext (1 – B)(1 – 0.44B) = (1 + 0.63B6 )at

ypaext (1 – B) – 0.44ypaext -1(1 – B) = (1 + 0.63B6 )at

∴ ypaext (1 - B) = 0.44ypaext-1 (1 - B) + (1 + 0.63B6 )at

∴ ypaext = ypaext -1 + 0.44ypaext-1 (1 - B) + (1 + 0.63B6 )at

이를 해석하면 다음과 같다.

첫째, 공공부조예산의 증가분은 0과 다름이 없다. 곧, 공공부조

Page 139: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 127 -

예산은 일정 수준을 유지하고 있다.

둘째, 올해 공공부조예산의 증가분은 지난 해 공공부조예산 증

가분의 44%에 의해 영향을 받는다. 곧, 현재의 공공부조예산은 지

난 해 공공부조예산에 지난 해 증가분의 44%를 더한 것으로 볼

수 있다. 이는 예산이 점증적 성격을 가지고 있음을 보여주는 것

이라 할 수 있다.

2) 사회보험예산

<표 11>에 따른 사회보험예산을 수리 모형으로 표시하면 다음

과 같다.

1 + 0.64B2 ysiext (1 - B) = 3.536 + at 1 + 0.50B5

인데, 양변에 (1 – 0.5B)를 곱하면

ysiext (1 - B)(1 – 0.5B) = 3.536(1-0.5B) + (1 + 0.64B2 )at

ysiext (1 - B)(1 – 0.5B) = 5.292 + (1 + 0.64B2 )at

∴ ysiext (1 - B) = 5.292 - 0.5ysiext-5(1 – B) + (1 + 0.64B2 )at

이를 해석하면 다음과 같다.

첫째, 일인당 사회보험예산은 매년 평균 3,536원 정도 증가한

다. 곧, 매년 사회보험예산은 증가 추세를 보여주고 있다.

둘째, 올 해 일인당 사회보험예산의 증가분은 5,292원에서 5년

전 사회보험예산 증가분의 50%를 뺀 것이다. 이는 5년 전 사회보

험예산 증가분과는 반대 방향으로 움직이는 것을 의미한다. 곧, 만

약 5년 전 사회보험예산 증가분이 1,000원이었다면 금년도 증가

분은 500원이 줄어들고, 5년 전 증가분이 -1,000원이었다면 금년

도 증가분은 500원이 늘어났다는 것을 의미한다.

셋째, 또한 사회보험예산은 2년 전 교란항에 의해 영향을 받는

Page 140: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 128 -

데, 이는 사회보험예산에 2년의 주기가 있음을 시사한다.

2. 여러 변수 시계열분석의 사례

여러 변수 아리마모형은 한 변수 모형보다 더 복잡하다. 여러

변수 아리마모형의 기본꼴은

ωi(B) 1 - θ1B - ‧‧‧‧‧‧ - θpBp

Yt = θ0 + Σ Xi,t + at 1 - δi(B) 1 - φ1B - ‧‧‧‧‧‧ - φqB

q

인데, 상수항인 θ0는 변수 Yt를 대표해주는 값이며, 옮김함수 부분

은 드는 시계열이 나는 시계열에 미치는 영향을 보여준다. 이때

교란항 at은 0과 다름이 없는 없소리(white noise) 상태이다. 물론

자동회귀계수값 φ1 ‧‧‧‧‧‧ φq 및 움직평균계수값 θ1 ‧‧‧‧‧‧ θp은 이 모형

의 시차 구조를 말해준다.

실제 예산 사례를 가지고 해석해보자. <표 12>는 공공부조예산

에 관한 두 변수 모형을 추정하여 요약해 놓은 것이다.

<표 12> 공공부조 예산에 관한 두 변수 모형

모수 추정값 표준 오차 t 값 p 시차 변수 이동AR1,1 -0.48103 0.14696 3.27 0.0022 1 공공부조 예산* 0NUM1 0.40111 0.12798 3.13 0.0032 0 사회보험 예산* 0* 차이화 기간 = 1

이를 수리 모형으로 표시하면 다음과 같다.

1ypaext (1 - B) = 0.40ysiext (1 - B) + at

Page 141: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 129 -

1 + 0.48B

∴ ypaext (1 - B) = -0.48ypaext-1 (1 - B) + 0.21ysiext (1 - B) + at

이를 해석하면 다음과 같다.

첫째, 일인당 공공부조예산 증가분과 일인당 사회보험예산 증가

분이 함께 증가하고 있음을 보여준다. 곧, 일인당 사회보험예산이

1,000원 증가하면, 일인당 공공부조예산은 400원 증가하고,

1,000원 감소하면 400원 감소하는 관계를 보여준다. 이는 이 두

예산이 함께 같은 방향으로 움직여 왔다는 것을 의미한다. 곧, 이

두 예산은 경합 관계가 아니라 동반 관계를 의미한다.

그 이유는 아마도 제 3의 변수로 경제적 요인이 두 예산에 동시

에 영향을 미치기 때문인 것으로 판단한다. 예컨대, 경제위기와 같

이 경제적 상황이 나빠지면 서로 다른 성질의 재원으로 운영되는

공공부조 예산과 사회보험 예산이 늘어나게 되는 것으로 추정해

볼 수 있다.

둘째, 올 해 일인당 공공부조예산 증가분에는 1년 전 사회보험

예산 증가분의 21%와 공공부조예산 증가분의 48% 정도가 반영되

고 있음을 보여준다.

한편, 공공부조예산과 사회서비스예산의 관계를 분석한 결과가

요약된 것이 <표 12>이다.

<표 12> 공공부조 예산에 관한 두 변수 모형모수 추정값 표준 오차 t 값 p 시차 변수 이동MA1,1 -0.63722 0.14987 -4.25 0.0002 1 공공부조 예산* 0NUM1 0.96984 0.15329 6.33 <.0001 0 사회서비스 예산* 5

NUM1,1 1.05957 0.22829 4.64 <.0001 3 사회서비스 예산* 5* 차이화 기간 = 1

Page 142: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 130 -

이를 수리 모형으로 표시하면 다음과 같다.

ypaext (1 - B) = (0.97 - 1.06B3)yswsext-5 + (1 + 0.64B)at ypaext (1 - B) = 0.97yswsext-5 - 1.06yswsext-8 + (1 + 0.64B)at ∴ ypaext (1 - B) = -0.09yswsextotal + (1 + 0.64B)at

이를 해석해보자.

일인당 공공부조예산 증가분과 일인당 사회서비스예산 증가분은

서로 다르게 움직이고 있음을 보여준다. 즉, 올해의 일인당 공공부

조예산 증가분은 5년 전 사회서비스예산의 97%에서 8년 전 사회

서비스 예산의 106%를 뺀 것이다.

장기간 보면 사회서비스예산이 공공부조예산에 미치는 영향은

-9%로 사회서비스예산이 1,000원 오르는 경우 공공부조예산은

90원 떨어졌다고 할 수 있다. 따라서 공공부조예산 증가분과 사회

서비스예산은 서로 부의 관계에 있다고 할 수 있다.

이는 공공부조예산과 사회서비스예산이 비슷한 성격이기 때문에

예산액의 구성 비율에서는 비슷한 추세를 보여주지만, 공공부조예

산 증가분에 미치는 영향에서는 경쟁 관계가 있음을 보여준 것이

다. 곧, 일반 조세로 운영되는 사회복지예산이라는 한정된 자원 속

에서 두 예산의 증가분만 놓고 해석해보면 두 예산은 경합 관계라

할 수 있다. 즉, 증가분에 미친 영향을 볼 때에는 한쪽이 증가하면

한쪽은 감소하면서 내부적인 균형을 맞출 수밖에 없으며, 따라서

공공부조예산 증가분에 사회서비스예산이 미친 영향은 부적 관계

일 가능성이 높다.

Page 143: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 131 -

참고 문헌

강주현ㆍ김상봉(2007). “서울시 대중교통정책 개편사례의 시차적

접근,” 한국행정학회 2007년도 동계학술대회 발표논문집(上)

, 175-193.

송근원(1989a) “미국 공적부조 예산의 결정에 영향을 미치는 요

인들,” 한국행정학보 제23권 제1호, 331-341. 한국행정학

회.

송근원(1989b). “미국 사회보험 예산의 결정에 영향을 미치는 요

인들,” 한국정치학회보 제23집 제1호, 299-315. 한국정치

학회.

송근원(1990). “공적부조 예산과 사회보험 예산의 비교분석--미

국 연방 예산에 영향을 미친 요인들의 차이를 중심으로,” 사

회복지학의 이론과 실제, 435-491. 인석 장인협 박사 정년

퇴임 기념론문집 발간위원회, 오롬시스템.

송근원(1998). “복지예산과 국방예산의 관계,” 한국행정학보 제

32권 제1호, 11-26. 한국행정학회.

송근원(2005). 아리마 시계열분석: 사회과학자를 위한. 부산: 금

정. 196쪽.

송근원(2010). “17대 대통령 선거아젠다 구조와 이슈 경쟁,” 사

회과학연구 26집 2호, 347-364. 경성대학교 사회과학연구

Page 144: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 132 -

소.

송근원(2011a). “선거아젠다 이슈가 후보의 가시성에 미친 영향,”

국가전략 17집 1호, 155-179.  세종연구소.

송근원(2011b). "이슈 경쟁인가, 이슈 동반인가? 17대 대선 후보

들의 이슈를 중심으로," 사회과학연구 제27집 2호,

89-114. 경성대학교 사회과학연구소.

송근원(2012). "안철수 현상이 서울시장 보궐선거에 미친 영향:

미디어 노출 횟수를 통한 후보들의 인지도를 중심으로" 조사

연구 13권 2호: 73-97. 한국조사연구학회(2012.7).

송근원ㆍ이영(2011). “사회복지예산들의 관계: 경합관계인가, 동반

갈등관계인가?” 한국행정논집 제23권 제1호, 1-23. 한국정

부학회.

윤의영(1997). “도시 비선호 시설이 주택 가격에 미치는 영향에

관한 연구,” 한국정책학회보제 6권 제 1호, 152-173.

이달곤(2007). “행정의 시차 연구,” 한국행정학회 2007년도 동계

학술대회 발표논문집(上), 159-173.

이시원ㆍ김준기ㆍ임도빈ㆍ정준금(2007). “행정부 내부 정책결정

소요시간 분석,” 한국행정학회 2007년도 동계학술대회 발표

논문집(上), 195-221.

임도빈(2007). “시간의 개념 분석-행정학 연구에 적용가능성을 중

심으로,” 한국행정학보 제41권 제2호, 1-21.

정정길ㆍ정준금(2003). “정책과 제도 변화의 시차적 요소,” 행정

논총 41권 2호, 177-202. 서울대학교 한국행정연구소.

Page 145: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 133 -

제갈돈(1995). “간여시계열 분석을 통한 안동댐의 기상영향평가,”

한국행정학보 제 29권 제 1호.

제갈돈(1997). 변형함수 분석. 서울: 길안사.

제갈돈(1997). 간여시계열실험과 분석. 서울: 길안사.

Anderson, T. W. Samuel Karlin and Takeshi Amemiya

ed.(1983). Studies in Econometrics, Time Series, and

Multivariate Statistics. New York: Academic Press.

Cook Thomas D. and Donald T. Campbell(1979).

Quasi-Experimentation: Design and Analysis Issues for

Field Settings. Chicago, Rand McNally College

Publishing Company. 1-36.

Glass G. V., V. L. Wilson and J. M. Gottman(1975). Design

and Analysis of Time Series Experiments. Boulder:

Colorado Associated University Press.

Gujarati, Damodar N.(1988). Basic Econometrics (2d. ed.).

New York: McGraw-Hill Book Company. 1-430.

Kmenta, J.(1971). Elements of Econometrics. New York:

Macmillan.

McCleary, Richard and Richard A. Hay, Jr.(1980). Applied

Time Series Analysis for the Social Sciences. Beverly

Hills: Sage Publications.

Pindyck, Robert and Daniel L. Rubinfeld(1981). Econometric

Page 146: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 134 -

Models and Economic Forecasts(2nd ed.). New York:

McGraw-Hill Book Company.

SAS/ETS(1985). Cary, NC.: SAS Institute Inc.

Song, Keun-Won(1987). Presidential-Congressional-Media

Relations in the Social Welfare Policy Agenda Building

Process. Diss. West Virginia University.

Song, Keun-Won(1989). Agenda Dynamics in U.S. Social

Policy Initiation. American Studies Institute, Seoul

National University: Seoul National University Press.

Page 147: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 135 -

찾아보기(학술용어)

(ᄀ)

가중된 최소제곱법(Weighted

Least Square Method)

66

간격변수(interval variable)

4, 7, 8, 9, 10, 11

간격척도(interval scale) 8

간결성의 원칙(parsimonious

principle) 101, 122

간여시계열 132

같게퍼짐(homoscedasticity)

46, 63, 65, 111

같게퍼짐(homoscedasticity)

의 가정 111

개입(intervention) 29

거짓관계(spurious relation)

21, 52, 55

거짓변수 20

결과변수 2

계열상관(serial correlation)

73

계절적 영향 92

곧은줄꼴(linear/linearity)

18, 19, 39, 43, 108, 109

공공아젠다 27

공선성(multicollinearity)

68

공차 한계(tolerance level)

68, 69, 70

관련성(association) 18

교란항(disturbance terms)

30, 31, 83, 87

교란항끼리의 독립성 가정(no

serial correlation) 143

교란항의 문제 119

교차상관관계(cross-correla-

tion) 113, 114

교차상관함수(cross-correla-

tion function)

103, 111

굽은줄꼴(curve-linear) 18,

19, 108

기간(period) 24, 25

기술(description)

16

기어리 검증(Geary test) 75

(ᄂ)

나는 시계열(output

time-series) 103

Page 148: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 136 -

내생변수 83

논술 16

능률성(efficiency) 45,

47, 51, 55, 57

능형회귀분석(ridge re-

gression analysis) 70

(ᄃ)

다공선성(다중공선성) 48

다중회귀분석 33

단순회귀분석 33, 40

달리퍼짐(heteroscedasticity)

46, 47, 63, 65, 71

대리변수(대변수) 29,

31, 56

대칭적(symmetric) 40

대통령아젠다 27

대표성의 원칙(representative

principle) 101

더빈-와슨의 d값(Durbin-

Watson’s d) 75

도구변수(instrumental varia-

ble) 73

독립변수(independent varia-

ble) 2, 12

동간변수(interval variable)

7

동태적(dynamic) 84, 110

동향(drift) 84, 86

두 번 차이화(second order

differencing) 92

뒤틀림(skewness) 61

드는 시계열(input time ser-

ies) 103, 111

드는 시계열과 교란항과의

독립성 가정 113, 114

등분산성(homoscedasticity)

46

(ᄅ)

로그를 취하여 변환된

자료(log-transformed

data) 92

로짓/로짓분석(logistic analy-

sis) 43, 59

(ᄆ)

마리마(MARIMA)

30

마하라노비스(Maharanobis)의

거리 61, 62

많은 수의 법칙(law of large

numbers) 45

매개변수(intervening varia-

ble) 3

명목변수(nominal variable)

Page 149: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 137 -

4, 5, 10, 11, 12, 13

명목변수, 순서변수, 간격변수,

비율변수의 관계 11

모수값의 추정 및 진단 100

모수통계기법(parametric

test) 12

모형 추정(model identi-

fication) 94

무작위 40

무작위 변수들(stochastic or

random variables) 33

무작위적이 아닌 잡소리들

(nonrandom noise) 111

무작위적인 요소들(random

shocks) 94

(ᄇ)

발길 닿는 대로 걷는 과정

(random walk process)

108

범주변수(categorical varia-

ble) 4, 12, 13

변수(variable) 1

변수 선정에 관한 가정 41

변수 선정의 오류

(specification error) 52,

102, 118, 121

변수 측정에 관한 가정(no

measurement error) 42

보통최소제곱법(Ordinary

Least Square Method:

OLS) 36, 37

부분자동상관함수(Partial

Auto-Correlation

Function: PACF) 92,

93, 94, 99

분산 팽창 요인(Variance

Inflation Factor: VIF)

69

불일치(inconsistency) 54,

57, 58

불편성(unbiasedness) 45,

74

비대칭적(asymmetric) 40

비모수통계기법(Non-para-

metric test) 12

비율변수(ratio variable)

4, 9, 10, 11

비이론적(atheoretic)

103, 105

비확률적 변수(nonstochastic

variable) 76

빠진 값(missing value) 62,

63, 107, 119

삐진자(outlier) 61, 63,

111, 120

Page 150: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 138 -

삐진자(outlier)의 문제 120

(ᄉ)

상관계수(correlation co-

efficient) 39

상관관계분석(correlation

analysis) 38

상관성(correlation) 18

상수/상수항(constant) 2,

35, 80

상태지수 70

서술 16

서열변수(ordinal variable)

6

설명(explanation) 16

설명변수 3

순서변수(ordinal variable)

4, 6, 7, 10, 11, 13

순서척도(ordinal scale) 8

순위변수(ordinal variable)

6

시간 24, 28

시간적 순서(time order) 22,

23

시계열내 상관관계

(within-series correla-

tion) 111

시계열모형 83

시계열분석(time-series

analysis) 82

시계열자료 29

시점(time point) 24

시차(time lag) 24, 26

(ᄋ)

아리마(ARIMA) 89

아리마모형 27

아리마모형짓기 121

아리마모형 해석의 문제 123

아젠다 시작 단계 27

아젠다 적응 단계 27

안거짓관계(nonspuriousness)

19, 20, 23

안곧은줄꼴(nonlinearity) 56

앞흰 시계열(pre-whitened

series) 111

양적 변수(quantitative vari-

able) 4

언론아젠다 27

없소리(white noise) 88,

93, 100, 115, 117

에타 제곱(η2) 44

여러 변수 시계열모형의 구조

104

여러 변수 시계열분석의 사례

128

Page 151: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 139 -

여러 변수 아리마모형

(mutivariate ARIMA

model) 30, 103, 83

여러 변수 회귀모형 78

여러 변수 회귀분석 33

여러겹친줄꼴 47

여러줄꼴(multicollinearity)

40, 47, 66, 67, 69, 70,

71, 112

여러줄꼴(multicollinearity)에

관한 가정 112

여러줄꼴(multicollinearity)의

문제 120

연속변수(continuous varia-

ble) 4, 12, 13, 106

영향 모형(impact model)

103

예측변수/예측자(predictor)

3

오차항(error terms) 35,

72, 73, 87

움직평균(moving-average)

31, 83, 88, 89, 91, 93

움직평균모형(MA 모형) 89,

90, 100

원인변수 2

의회아젠다 27

이분산성(heteroscedasticity)

46

이산변수(discrete variable)

4

인과관계 1, 15, 17, 23

인과율 15

일관성(consistency) 45

일반화된 최소제곱법

(Generalized least

squares method: GLS)

77

(ᄌ)

자동상관(autocorrelation:

serial correlation) 73,

75, 76, 114, 115, 117

자동상관함수(Auto-Correlati

on Function: ACF) 92,

94, 99

자동회귀(auto-regressive)

31, 76, 83, 88, 89, 93

자동회귀모형(AR 모형) 89,

100

자유도(degree of freedom)

57

잡소리 부분(noise compo-

nent) 87, 88, 111

Page 152: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 140 -

적시성(timeliness) 24, 25

적합도(goodness of fit) 79

전환성의 조건(bounds of in-

vertability) 91

전환성의 한계(bounds of in-

vertability) 100, 110

절대영점 7

절편(intercept) 80

점근적 능률성(asymptotic

efficiency) 45

정규성(normality) 가정 19,

44

정부아젠다 27

정책 반응 기간 27

정책 적응 기간 26

정책 학습 기간 25, 26

정태성(stationarity) 84,

85, 86, 91, 94, 109, 110

정태성(stationarity)의 가정

109, 110

정태성의 조건/정태성의

한계(bounds of statio-

narity) 90, 100, 110

정태성의 확보 91

정태적(stationary) 85,

109, 110

정태적 분석 방법 29

제멋대로(stochastic) 40,

110

제멋대로 과정(stochastic

process) 87, 94, 107,

108, 109

제멋대로줄꼴 108

종속변수(dependent varia-

ble) 2, 12

중심 극한 정리(central limit

theorem) 45

중회귀분석 33

지레값(Leverage value) 61,

62

지수(index) 71

질적 변수(qualitative varia-

ble) 4

찌꺼기(residuals) 46,

61, 64, 75, 114

(ᄎ)

차이화(differencing) 77,

89, 92

최대가능성추정법(Maximum

Likelihood Method: ML)

37

최소제곱 추정값(least square

estimator 55

Page 153: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 141 -

추세(trend) 84, 85

(ᄏ)

코크란스-오커트 방법

(Cochrance-Orcutt

method) 77

쿡(Cook)의 값 61, 62

(ᄐ)

통계적 관계 33

통계적 의존성(statistical de-

pendence) 33

통제변수(control variable)

3

(ᄑ)

판별분석 59

편의(bias/biased) 50,

54, 57, 58, 72

펼친그림(scattergram) 39

프로빗/프로빗 분석(probit

analysis) 43, 59

피어슨의 상관계수 18

피예측자(predictant) 3

(ᄒ)

한 변수 시계열분석의 사례

125

한 변수 아리마모형

(univariate ARIMA mod-

el) 30, 83

한 변수 회귀분석 33, 40

한 쪽 분산분석(One-way

ANOVA) 44

함께 변하기(covariation)

17, 23

함수적 관계 33

합성된 아리마모형(compound

ARIMA model) 112

회귀분석(regression analy-

sis) 29, 32, 38

회귀분석과 상관관계분석

38

회귀분석과 인과관계 38

회귀상수 35

회귀선 35

(숫자)

1차 자동회귀 계열(first-or-

der autoregressive ser-

ies) 76

1차 차이화하는 방법(first

difference method) 77

2단계 최소제곱법(two stage

least square method:

2SLS) 73

Page 154: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 142 -

(A)

ACF 92

adj R2 80

AIC 통계값 101

ANOVA 13

AR 모형 89

ARMA 모형 89

association 18

asymmetric 40

asymptotic efficiency 45

at 88

atheoretic 103

Auto-Correlation Function

92

auto-regressive 89

autocorrelation 73

(B)

b값 80

Beta(β)값 80

bias/biased 50, 54, 57,

58

bounds of invertability 91,

110

bounds of stationarity 90,

110

(C)

categorical variable 4

central limit theorem 45

Cochrance-Orcutt method

77

Cochran’s Q test 12

compound ARIMA model

112

consistency 45

constant 35, 80

continuous variable 4

control variable 3

correlation 18

correlation analysis 39

correlation coefficient 39

co-variation 17

cross-correlation function

111

curve-linear 18

(D)

degree of freedom 57

dependent variable 2

description 16

first difference method 77

differencing 89

discrete variable 4

Page 155: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 143 -

disturbance term 30,

83, 87

drift 84

Durbin-Watson’s d 75

dynamic 84, 110

(E)

efficiency 45, 47, 55

error term 36, 87

explanation 16

(F)

F값 79

first-order autoregressive

series 76

Fisher’s exact test 12

fixed 33

Friedman test 12

functional relation 33

(G)

Geary test 75

Generalized least squares

method 77

GLS 77

(H)

heteroscedasticity 46,

63, 71, 119, 120

homoscedasticity 46,

63, 111

(I)

inconsistency 54, 57, 58

Independent samples t-test

12, 13

independent variable 2

index 71

input time-series 103

instrumental variable 73

intercept 80

interval variable 7

intervening variable 3

(K)

Kendall’s tau 13, 19

Kruskal-Wallis test 12,

13

(L)

law of large numbers 45

least square estimator 55

Leverage value 61

linear 18

linear association 39

linearity 43

Page 156: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 144 -

log-transformed data 92

logistic analysis 59

(M)

Mann-Whitney U test 12,

13

MARIMA 30

Maximum Likelihood

Method 37

McNemar test 12

missing value 62, 107

ML 37

model identification 94

moving-average 89

multicollinearity 40,

66, 112, 120

Multivariate ARIMA 30,

83

(N)

no measurement error

42, 58

no serial correlation 51

no specification error 41

noise component 87

nominal variable 4

non-parametric test 12

non-stochastic 33

non-linearity 56

non-random noise 111

non-spuriousness 19

non-stochastic variable

76

normality 44

normality assumption 19

Nt 87, 88

(O)

OLS 37, 74, 76, 77

One-way ANOVA 12, 44

ordinal variable 6

Ordinary Least Square

Method 37

outlier 61, 111, 120

output time-series 103

(P)

PACF 92

Paired samples t-test 12

parametric test 12

parsimonious principle

101, 122

Partial Auto-Correlation

Function 92

Pearson’s correlation co-

efficient/ Pearson’s r

Page 157: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 145 -

13, 18

period 25

pre-whitened series 111

predictant 3

predictor 3

probit analysis 59

proxy variable 30

(Q)

Q 통계값 100

qualitative variables 4

quantitative variable 4

(R)

R2값 79

random 40

random shocks 94

random variables 33

random walk process 108

ratio variable 9

regression 13

regression analysis 32, 39

Repeated measure ANOVA

12

representative principle

101

residuals 46, 61, 75

ridge regression analysis

70

rule of thumb 76

(S)

SBC 통계값 101

scatter-gram 39

second order differencing

92

serial correlation 51

Sig F값 79

Sig t값 81

simple regression analysis

40

Spearman’s rho 13,

19

specification error 52

spurious relation 55

spurious variable 20

standard t test 57

stationarity 84, 109, 110

stationary 85, 109

statistical dependence 33

stochastic 33, 40

stochastic process 94

symmetric 40

(T)

time lag 26

Page 158: 요인에 대해 이해를 하지 못하는 경우, 그 해석에 대해 이의를 제prof.ks.ac.kr/gwsong/paper-1/0117.pdf · 소], 흰피톨[백혈구], 붉은피톨[적혈구],

- 146 -

time order 22

time point 24

time-series analysis 82

timeliness 25

tolerance level 69

trend 84

two stage least square

method 73

t값 81

t검증 57

(U)

unbiasedness 45, 74

univariate ARIMA model

83

unreliable 42

(V)

variable 1

Variance Inflation Factor

69

VIF 69, 70

(W)

Weighted Least Square

Method 66

Wilcoxon signed rank test

12

within-series correlation

111

WLS 66

(X)

X2 19

X2 test 12, 13

(η)

η2 44