38
주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth) 변수를 중심으로 이지연 * 1) 국내뿐만 아니라 국내외 모든 사회, 경제 분야에서 경제 사회의 현상을 해석하고 예측하기 위한 많은 연구들이 이루어지고 있다. 그에 따라 모든 연구의 기초이자 뼈대가 되는 Data 중요성은 더욱 더 강조되고 있다. 하지만 방대한 양의 Data의 수집과 관리 과정에서 많은 오류들 이 발생하며 그에 따른 연구의 결과도 크게 좌우되는 현실이다. 본 논문에서는 이러한 변수의 오류에 대처하는 하나의 방법론으로 주 성분분석 (Principal component analysis)를 연구하였다. 주성분분 석을 이용하여 새로운 변수를 생성하는 것이 그 목적이며 새로이 생성된 변수의 실효성과 정확성을 보임으로써 주성분분석이란 방 법론의 신뢰성을 입증하고자 하였다. 본 논문에서는 자산 관련 변수들을 이용, 주성분분석(PCA)을 대리 부(Wealth)변수를 생성하고 이미 존재하는 실제 변수와 주성분분석을 이용한 대리변수의 비교작업을 행하였다..이렇게 생 성된 두 가지 방법론의 두 가지 변수들의 비교를 스피어만 순위 상관 계수와 t-검정을 통하여 진행 하였으며 그 결과 주성분 분석 이용하여 생성한 대리 부(wealth)와 실제 부(wealth) 변수 간 양(+)상관관계의 존재를 입증 할 수 있었다. 이러한 결과를 배경으 본 논문에서 연구한 주성분분석이 영향력 있는 방법론으로 전 가능한지에 대한 논의를 진행하였다. * 성균관대학교 경제학과 석사 3기

주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

주성분 분석을 통해 만들어진 리변수의

정확도 측정: 부(Wealth) 변수를 심으로

이지연*1)

국내뿐만 아니라 국내외 모든 사회, 경제 분야에서 경제 사회의

상을 해석하고 측하기 한 많은 연구들이 이루어지고 있다.

그에 따라 모든 연구의 기 이자 가 되는 Data 요성은 더욱

더 강조되고 있다.

하지만 방 한 양의 Data의 수집과 리 과정에서 많은 오류들

이 발생하며 그에 따른 연구의 결과도 크게 좌우되는 실이다. 본

논문에서는 이러한 변수의 오류에 처하는 하나의 방법론으로 주

성분분석 (Principal component analysis)를 연구하 다. 주성분분

석을 이용하여 새로운 변수를 생성하는 것이 그 목 이며 새로이

생성된 변수의 실효성과 정확성을 보임으로써 주성분분석이란 방

법론의 신뢰성을 입증하고자 하 다.

본 논문에서는 자산 련 변수들을 이용, 주성분분석(PCA)을 통

해 리 부(Wealth)변수를 생성하고 이미 존재하는 실제 변수와

주성분분석을 이용한 리변수의 비교작업을 행하 다..이 게 생

성된 두 가지 방법론의 두 가지 변수들의 비교를 스피어만 순

상 계수와 t-검정을 통하여 진행 하 으며 그 결과 주성분 분석

을 이용하여 생성한 리 부(wealth)와 실제 부(wealth) 변수 간

양(+)상 계의 존재를 입증 할 수 있었다. 이러한 결과를 배경으

로 본 논문에서 연구한 주성분분석이 향력 있는 방법론으로 발

가능한지에 한 논의를 진행하 다.

* 성균 학교 경제학과 석사 3기

Page 2: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

Ⅰ. 서 론

변화하는 경제, 사회 상들을 분석하고 처하기 한 많

은 연구들이 시 에 행해지고 있다. 수많은 종류의 인구 조사와

가구조사 직업력 조사 등 사회 경제 상들에 따라 선행하고 후행

하는 여러 가지 사회 문제들을 연구하기 한 정보의 수집이 곳곳

에서 이루고 지고 있다. 여러 가지 방법으로 조사된 사회경제 데이

터들은 우리의 재를 악하여 기록 할 수 있게 하며 미래를

측하여 비할 수 있도록 도와 다. 하지만 이는 여러 가지 제약조

건하에서 이루어지고 있으며 많은 것을 단순화하는 가정을 필요로

한다. 한 정보수집의 한계에 의한 여러 가지 불완 성들이 Data

상에 항상 존재 한다. 정보의 락, recall bias, 데이터의 자기상

문제와 다 공선성 등 Data오류로 인한 연구의 어려움이 항상 공

존하고 있으며 원하는 정보의 수집이 어려운 경우 연구 자체가 난

항을 겪기도 한다.

특히, 소비, 지출, 자산 등 경제변수들의 부재를 문제로 갖고 있

는 개발도상국 같은 경우 그 나라 경제 주체들의 경제 수 과 불

평등도 측정에 많은 어려움을 갖고 있으며 이러한 문제 을 해결

하기 하여 많은 연구들이 이루어져 왔다.

목 변수의 부재 시 련 변수들의 요인들을 추출하여 목 변수

의 체변수로 생성하는 방법이 그 하나의 이다. 많은 선행연구

들은 이 게 생성한 체 변수의 실효성에 한 연구를 행해 왔으

며 그 방법론으로 리 사용된 것이 바로 주성분 분석(Principal

component analysis)이다.

주성분 분석으로 생성한 체 변수의 실효성을 증명하고 이를 이

용하여 불평등도와 경제주체의 사회 지 등을 정의하 다.

뿐만 아니라 주성분 분석은 독립 변수들 간의 독립성을 보장하여

Data상의 오류에 한 해결책으로 좋은 안이 되고 있다.

Page 3: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

기존의 회귀 분석을 이용한 많은 연구들은 에서 언 한 Data

의 오류에 많은 향을 받는다. 독립변수들 간의 상 계가 발생

할 경우 자기상 과 다 공선성의 이유로 연구의 신뢰성과 정확성

을 떨어뜨리는 결과를 가져올 수가 있다. 하지만 많은 연구들이 이

러한 오류들을 감수한 채 이루어지고 있으며 변수들 간의 독립성

을 완벽히 보장해 주는 Data 정보는 거의 무하여 그에 한 해

결책 한 쉽지 않은 실정이다. 이러한 기본 배경을 인지하여 Data

를 다루는 하나의 실험 인 방법론으로 David J.

Mckenzie(2003)과 같이 주성분분석을 이용한 연구법을 제안하고자

한다.

본 논문에서는 주성분분석(Principal component analysis)을 이용

한 변수 추정의 신뢰성을 증명하기 하여 한국노동연구원의

KLIPS Data를 이용한 리 부(Wealth)변수의 생성에 한 연구를

실시하 다. KLIPS Data 내에서 부(Wealth) 항목과 련을 가지고

있지만 액으로 조사된 것은 아닌 아홉 개의 자산 련변수를 선

정하여 주성분 분석을 행하 다. 이 게 구해진 체 부(Weatlth)

변수와 통계청의 자산의 정의에 의해 계산되는 실제 부(Wealth)변

수 간 비교와 조를 행하 다. 즉, 두 변수간의 상 계를 분석

통하여 본 논문에서 제안한 방법론의 신뢰성과 정확성을 증명하고

부(Wealth) 변수 추정뿐만 아니라 경제 외 다른 분야의 연구에서

도 충분히 용 가능한 방법론으로써의 발 에 그 목표를 두고 있

다.

본 논문의 구성은 다음과 같다. 제Ⅱ장에서는 주성분분석의 배경

이 되는 이론 선행연구들을 살펴 볼 것이며 제 Ⅲ장에서는 분

석을 해 사용된 Data와 변수 선별법에 한 설명을 진행한다.

제Ⅳ장의 방법론 모형 부분에서는 주성분분석에 한 구체

인 설명과 리 부(Wealth) 변수를 만들기 해 사용된 모형에

한 자세한 언 을 하 으며 연구의 실증분석에 한 내용을 제Ⅴ

장에 실었다. 마지막으로 제Ⅵ장에서 결론 시사 을 담았다.

Page 4: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

Ⅱ . 배 경 선 행 연 구

오랫동안 경제 사회 분야에서 어떠한 상의 증명과 측을 하

여 방 한 양의 Data를 수집과 이러한 Data를 이용한 연구들이

활발히 진행 되고 있다. 모든 연구의 기 정보인 Data Set의 향

력은 그 어떠한 도구보다 막강하며 연구결과와 목표를 좌지우지할

수 있는 기 이며 이라고 할 수 있겠다. 따라서 많은 연구들이

Data 상 정보의 질과 충분한 양의 Data 확보를 하여 많은 노력

과 방법들을 연구하고 있다. 이러한 Data 수집의 부분은 인터뷰

나 화 통화 혹은 설문지 조사 등을 통해 이루어지고 있으며 그

정확도 보존과 표본의 표성, 표본 유지도 등이 항상 요시 여겨

지고 있다. 아무리 신 을 기한 Data의 수집이라 할지라도 방 한

양의 Data 수집 과정에서 발생하는 여러 가지 크고 작은 문제 들

을 리, 조정한다는 것은 불가능한 일이며 Data에 존재하는 어느

정도의 오류를 감안하고 연구를 진행 하는 것이 그 례이다.

그 표 인 로 다 회귀 분석의 경우를 들 수 있겠다. 변수

들 간의 상 계가 발생할 경우 회귀 계수의 추정 분산이 매우

큰 값을 가지게 된다. 이러한 경우 추정치의 불편성과 일 성이 더

이상 성립하지 않는 문제가 발생된다. 이러한 경우의 해결책으로는

문제가 되는 변수의 제거나 도구변수의 이용 등이 안으로 제시

되고 있다. 이외의 하나의 안으로는 주성분 분석을 통해 생성

된 주성분 변수를 설명 변수로 사용 하는 방법들이 있다.1)

주성분 분석을 통하여 얻어진 주성분변수는 변수들 간의 독립성

을 완벽히 보장하여 변수들 간의 상 계 존재 문제로 인한 회귀

1) 권세 (2008) 권세 교수의 ‘다변량 분석과 데이터의 활용‘에 주성분분석에 한 자세

한 내용이 기술 되어 있으며 주성분 변수의 독립성을 기 로 하여 주성분 변수를 설명

변수로 사용 하는 것이 회귀분석의 오류 사항을 보완 할 수 있는 훌륭한 안이라 제

시하고 있다. 주성분 스코어로 각 변수의 고유벡터를 사용하는 것이 각 주성분변수의

독립성이 보장되는 이유가 된다.

Page 5: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

분석의 오류에 한 훌륭한 보완책이 된다. 이러한 방법으로 Data

내에 존재하는 설명 변수의 문제 을 해결하고 올바른 연구 결과

로의 도출에 좀 더 가까워 질 수 있다.

이러한 설명변수의 문제 해결뿐만 아니라 한 설명변수의

부재 시에도 이러한 주성분분석을 사용할 수 있다. 주성분 분석은

여러 가지 변수의 공통 요인을 추출하여 그보다 은 수의 변수를

생성할 수 있기 때문이다.

David J. Mckenzie는 2000년의 논문에서 멕시코의 Data를 이용

하여 경제주체의 임 , 소비, 같은 변수가 충분히 주어지지 않았을

때 가구의 내구재, 수도, 기시설 등의 체변수를 이용, 주성분분

석을 통해 추정한 자산변수로 생활수 의 불공평성 정도를 측정

가능성을 연구하 다.

Mckenzie는 자산지표(asset index)를 이용하여 측정된 불평등 정

도와 지출, 소득을 이용하여 측정된 불평등 정도 간의 비교를 하

여 멕시코의 ENIGH data를 사용하 다.

논문의 결과에 따르면 각각의 자산변수들의 첫 번째 주성분

scoring factor는 자 거 변수를 제외한 모든 사회기반시설의 항목

에서 양(+)의 수치를 나타냈으며 진흙 바닥이나 벽돌로 만든 벽 등

낮은 질의 주거재료를 나타내는 자산변수 항목에서는 음(-)의 수치

를 나타내었다.

이러한 결과는 주성분 분석을 이용한 자산지표의 생성이 올바를

부(Wealth)에 한 정보를 나타내는 리변수로써의 역할을 훌륭

히 수행할 수 있다는 것을 시사하고 있음을 보 다.

주성분 분석을 이용한 다른 연구로 Deon filmer and Lant H.

Pritchett의 2001년 논문이 있다. 당 논문에서는 인도의 data를 이

용하여 가구의(부에 따른) 경제 지 가 자녀의 교육, 학력 등에

미치는 향을 소득과 소비의 정보가 제공되지 않은 경우에서도

증명할 수 있는 방법론 존재 여부에 한연구를 진행 하 으며,

Filmer와 Pritchett이 그러한 방법론으로 제안한 것이 바로 주성분

Page 6: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

분석(Principal component analysis)이다. 즉, 주성분분석을 이용하

여 자산소유(asset ownership)를 나타내는 변수들을 구축하고 이를

가구의 경제 부(Wealth)를 나타내는 리변수로 사용하 다. 네

국가에 걸쳐 앞에서 제시한 두 가지 방법론을 이용하여 가구의 경

제 지 를 하 40%, 40%, 상 20% 세 분류로 나 는 작업

을 실시하 다.

네팔의 경우 지출 지표를 통해 분류된 하 40%의 가구 약

65.2%가 자산지표(asset index)로 분류한 하 40%에 속하는 것을

찰할 수 있으며 인도네시아의 경우에서도 65.9%의 결과를 찰

할 수 있었다. 키스탄의 경우에는 앞의 두 나라보다는 좀 더 작

은 수치인 61%를 보 다.

한 지출지표를 통해 분류된 20%의 상 20% 가구는 자산지표

에서 네팔 56% 인도네시아 48% 키스탄 42%로 나타남으로써 하

40%의 경우보다는 작은 수치를 나타내었다.

반면 지출지표에서 상 20%에 속해 있던 네팔, 인도네시아, 키

스탄의 가구들 12%, 10%, 20% 만이 자산지표(asset index)에서

분류한 하 40%에 속하는 것을 볼 수 있었다.

네팔과 인도네시아의 경우 이러한 결과치가 거의 유사하게 산출

되었으며 키스탄의 경우 앞의 두 나라에 비하서 조 은 수치

의 결과를 가지고 왔음을 알 수 있다.

주성분 분석을 이용한 국내의 연구로는 천병철, 박나연(2007)의

논문이 있다. 천병철, 박나연의 논문에서는 방 한 융변수로부터

공통 요인을 추출 하여 소수 변수로 축약하는 주성분 분석의 기법

을 이용, 융 상황을 집약 으로 내포하는 새로운 지표를 만드는

과정에 그 의의를 두었다.

37개의 경제 융 변수에서 공통요인을 추출 한 후 새로운 융

상황지수를 생성하 으며 융상황지수 후보군을 상으로 주요

거시변수에 한 선행성, 설명력 등을 기 으로 새로운 융상황지

수의 신뢰성과 실효성을 입증하는 작업을 하 다. 하나의 국내

Page 7: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

연구로는 정갑 , 강 은 (2007)의 연구가 있다. 당 논문에서는 북

한의 제한 인 경제 변수 자료를 감안 하여 제한 으로 공개 되어

있는 북한의 경제 자료만을 이용 북한의 국민총소득(GNI)를 추정

하는 방법에 한 연구를 진행하 다. 여기서 사용된 방법론이 바

로 주성분분석이다. 북한에서 공개된 20개의 자료들을 이용하여 주

성분 분석을 행하 으며 변수간의 다 공선성을 해결하고 상호독

립 인 소수의 주성분 변수들을 식별하여 계량분석에 활용하 다.

이와 같은 국내외 연구에서 주성분분석을 이용한 많은 연구 들이

행해져 왔으며 본 논문에서는 이러한 선행 연구들을 기 로 주성

분분석을 통한 새로운 변수의 생성의 신뢰성과 실효성을 입증 하

고자 한다.

Ⅲ . D ata

1 . 주성분 분석을 한 변수 선 별 ( 리 변수 생 성)

본 논문에서는 1998년도부터 2007년도까지 경제주체의 집약 인

정보를 담고 있는 노동패 자료, KLIPS data를 이용하 다.

KLIPS는 횡단면 자료와 시계열 자료를 모두 갖추고 있는 패 자

료로서 일정 지속기간 동안 경제 주체의 변화를 포착하기에는 더

없이 좋은 자료라고 하겠다. 재 1998년 1차 조사를 시작으로 10

차 조사(2007년)까지 완성된 KLIPS는 한국의 도시지역에 거주하는

5,000가구를 조사한 가구용 자료와 가구에 거주하는 15세 이상의

모든 가구원을 상으로 (패 표본 구성원)한 개인용 자료로 나뉘

어져 있으며 조사는 1년에 1회씩 실시되고 있다.

본 논문에서는 2007년도 자료인 제10차 KLIPS 가구용 자료를

사용하여 분석에 필요한 리 부(Wealth) 변수와 실제 부(Wealth)

Page 8: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

변수를 생성하 으며 분석에 사용한 가구용 자료에는 가구원의 인

사항, 변동 가구원 련 사항, 가족 계와 세 간 경제 자원

교류, 주거상태, 자녀교육과 보육, 가구의 소득과 소비, 가구의 자

산과 부채, 가구의 경제 상태 가계에 부담을 느끼는 소비 항목

등의 내용이 조사되어 있다2)

주성분 분석을 이용한 리 부(Wealth)변수를 생성을 하여

KLIP의 가구용 자료로부터 몇 가지 변수를 선별하여 사용하 다.

변수의 선별 기 은 경제주체의 부를 나타낼 수 있는 자산 련

항목의 더미 변수와 경제주체의 경제 수 을 나타내는 자산 련

빈도 변수들을 택하 다. 이 게 하여 선별된 변수들은 다음과 같

다.

(1) 주거의 입주 형태

-자가

- 세

-월세

(2) 주거의 평수

-주거지의 체 평수(자가인 경우)

-주거지의 실제 사용평수(비자가인 경우)

(3) (조사 당시)거주주택 외 부동산 소유여부

(4) 자동차 소유 수

(5) 두 자녀의 사교육 이용 개수 평균

(6) 응답자가 느끼는 가구의 재 경제 상태

본 논문에서는 선별된 자산 련 변수들에 주성분분석을 행하여

리 부(wealth)변수를 생성하 으며. 변수들 에서는 부(wealth)

에 양(+)의 향을, 그리고 음(-)의 향을 나타내는 각각의 변수들

2) 한국노동연구원, KLIPS 유 가이드

Page 9: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

사용 변수이름 정의 비고

h_style1 주거의 입주 형태 자가

h_style2 주거의 입주 형태 세

h_style3 주거의 입주 형태 월세

o_hsize 주거지의 평수 자가의 체 평수

r_hsize 주거지의 평수 비자가의 실제 사용 평수

realest1 거주주택 외 부동산 소유여부

n_car 소유 자동차의 수

n_edu 사교육 평균 이용 개수 두자녀의 사교육 개수 평균

eco_condition 재 경제 상태 응답자가 느끼는 재 경제 상태

이 포함되어있다.

<표 1 > 주성분 분석에 사 용 된 변수이 름 과 정의

첫 번째 선별 변수인 주거의 입주 형태의 경우 (1)자가 (2) 세

(3)월세 (4) 기타의 응답들을 택일하는 방식으로 설문 항목이 구성

되어 있으며 이 게 하나의 변수로 되어있는 항목을 자가, 세,

월세 각각의 더미 변수로 변환하여 세 개의 자산 련 변수로 나

었으며 이러한 변수화 과정을 통해서 각각 변수가 주성분 분석에

의해 생성된 리 부(Wealth)에 미치는 개별 인 향을 악할

수 있도록 하 다.

본 논문에서는 주거의 입주 형태가 사회의 일반 인 통념과 마찬

가지로 (1)자가의 경우가 세, 월세 응답에 비하여 부(Wealth)수

에 좀 더 치가 큰 정(+)의 향을 미칠 것으로 가정, 분석을

행하 다.

두 번째 선별 변수인 주거지의 평수는 자가인 경우에 체평수

를, 비자가인 경우엔 임 한 주거지의 실제사용 평수를 용하

다. 주거지의 평수 항목의 응답 형태는 개방형응답으로 평수를 직

기록 할 수 있도록 설문 항목 설계 되어 있다. 본 논문에서는

Page 10: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

이러한 가구의 주거지 평수를 크기에 따라 그룹화 하여서 하

25%에는 1값을 하 25%에는 2의 값을 상 25%에는 3의 값을

최상 25%에는 4의 값을 부여하여 새롭게 코딩을 변경 하 다.

이러한 방식의 변수 코딩 변경은 분석 편리성을 한 하나의 조치

로 이루어졌다.

실제 경제사회 내에서도 주거지의 평수에 따른 부(Wealth)수 의

평가와 용이 흔치 않게 발생 하고 있으며 주거지 평수와 부

(Wealth) 수 의 정(+)의 계가 성립해 왔다. 본 논문에서도 이러

한 사회 통념 가정을 토 로 주거지 평수가 리 부(Wealth) 변

수에 미칠 향에 해 가정 하 으며 PCA에 사용될 변수로 선별

하 다.

세 번째 선별 변수인 조사 당시 거주 주택 외 부동산 소유의 여

부는 (1) (2)아니오 의 더미 변수를 이루어져 있다.

거주주택 외 부동산의 소유 여부는 자신이 재 실제 거주하고

있는 주택 외에 다른 부동산 자산을 소유하고 있는가를 묻는 항목

이다. 본 논문에서는 거주주택 외 부동산 련 항목들 소유 여

부의 더미 변수를 자산 련 변수로 선별하여 사용하 으며 자산

가장 큰 부분을 차지하는 부동산과 부(wealth)수 간 정(+)의

상 계를 가정하 다.

네 번째 선별 변수는 자동차 소유 수 항목이다. 기타 자산인

자동차 련 항목은 자동차 소유 여부와 자동차 소유 수 그리고

자동차의 재 시가 항목이 있다. 본 논문에서는 화폐 가치를 포

함한 자동차 재 시가의 항목은 리 부 (Wealth) 가 아닌 실제

부(Wealth)변수 생성에 사용하 고, 리 부(Wealth)변수 생성에는

빈도변수로 조사된 자동차 소유 수 변수를 사용하 다. 자동차 소

유 수 항목은 각 가구에서 소유하고 있는 자동차 소유 수의

총합의 숫자를 기입할 수 있는 개방형 질문으로 구성 되어 있으며

본 논문에서는 이처럼 기입된 빈도 변수를 리 부(Wealth) 변수

와 정(+)의 계를 나타날 것으로 가정한 하나의 자산 련 변수로

Page 11: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

선별하여 채택하 다.

다섯 번째로 선별된 자산 련 변수는 두자녀의 사교육 평균 이용

개수 변수이다.

두 자녀의 사교육의 평균 개수는 KLIPSD의 10차 가구용 data에

서 두 자녀의 사교육 이용 개수를 응답한 가구들을 상으로 진행

하 다. 이 과정에서 고등학교 이하 자녀가 둘인 응답자들만을 선

별하여 분석에 사용 하 으며 개방형 질문으로 설계되어있는 두자

녀의 사교육 이용 개수를 총합한 후 가구 자녀의 수로 나 어주는

과정을 통해 평균함으로써 새로운 변수로 생성 하 다.

마지막 여섯 번째 선별 변수로는 반 인 가구 경제 상태를 조

사한 항목인 재경제상태 변수이다. 이는 재 응답자가 느끼는

가구의 경제 상태에 한 질문에 응답하는 항목으로써 (1)매우 여

유가 있다 (2) 여유 있는 편이다 (3) 보통이다 (4) 조 어려운 편

이다 (5) 매우 어렵다 의 다섯 가지 선택지가 제공 되어 있다. 본

논문에서는 재경제상태 항목에서 (1) 매우 여유가 있다 를 선택

하는 응답자는 (5) 매우 어렵다 를 선택한 응답자보다 더 높은 부

(Wealth)의 수 을 나타낼 것으로 가정하 다. 이 항목은 재 응

답자가 느끼는 가구 경제상태에 한 응답을 하는 항목으로써 응

답자 자신이야말로 자신의 가구가 처해있는 경제상태의 수 을

구보다 더 잘 알 것이라는 가정 하에 본 항목을 주성분 분석에 포

함될 선별 변수로 채택하 다. 조사당시 응답자가 실제로 느끼고

있는 경제상태 수 을 직 이고 실 으로 조사한 항목이라는

에서 의미 있는 변수 선별이라고 하겠다.

의 과정들을 통해서 리 부(Wealth) 변수 생성을 한 자산

련 변수들을 채택 하 다. 주거의 입주 스타일 같이 하나의 변수

의 자가, 세, 월세 항목이 모두 포함된 경우 이를 각각의 더미

변수화 하여 세 개의 변수로 생성하 으며 주거의 평수 항목은 자

가의 평수와 비자가의 나 어 자가 와 비자가간의 상 차이

을 완화하 다. 그 외의 나머지 항목들은 , 아니오 의 항목은 1

Page 12: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

변수명 측치 평균 표 편차 최소값 최 값

h_style1 1650 0.582 0.493 0 1

h_style2 1650 0.291 0.455 0 1

h_style3 1650 0.125 0.331 0 1

o_hsize 1650 2.293 1.317 1 4

r_hisze 1650 2.162 1.397 1 4

realest1 1650 0.205 0.404 0 1

n_car 1650 0.894 0.568 0 3

n_edu 1650 1.208 0.995 0 5

eco_condition 1650 3.479 0.789 1 5

과 0의 값을 갖는 더미 변수로 코딩 변경 하여 분석에 포함 시켰

으며 자동차 소유 수 나 두자녀의 사교육 평균 이용 개수 같이

개방형 질문으로 빈도변수로 조사된 항목은 별다른 코딩변경 없이

그 로 분석에 포함시켰다.

이와 같은 변수 선별 과정을 통해 리 부 (Wealth) 변수 생성을

한 주성분분석 과정에서 포함된 변수는 자가, 세, 월세, 자가의

체평수 , 비자가의 실제 사용 평수, 거주주택 외 부동산 소유 여

부 , 자동차 소유 수, 사교육 평균 이용 개수 이 게 9가지 변수

이다.

<표 2 > 주성분 분석에 사 용 된 변수의 기 통계 량

2 . 실 제 부(w ealth)변수 생 성을 한 변수

본 논문에서는 리 부(Wealth) 변수와 비교 가능한 실제 부

(Wealth)변수의 생성을 하여 마찬가지로 KLIPS의 10차 가구용

자료를 사용하 다. 실제 부(Wealth) 변수의 생성은 통계청에서 제

시한 자산의 정의를 따르도록 한다. 통계청에서 제시한 ‘자산의 정

Page 13: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

의’는 다음과 같다.

순자산=( 축총액+부동산 시가 평가액+기타 자산 평가액)–부채총액

본 논문에서는 총자산에서 부채 총액을 감한 순자산변수를 실제

부(Wealth)변수로 정의하 다, 순자산의 일부를 차지하는 축총액

은 립식 축액과 주식, 채권 등의 목돈투자의 축액에 ,월세

보증 , 곗돈 불입 등을 합한 형태로 경제주체가 행한 축의 총

액을 의미한다.

부동산 시가 평가액은 주택과 주택 이외의 부동산 소유물에

한 재 시가로써 토지, 건물, 분양 도 납입 이 여기에 포함된다.

기타 자산 평가액은 부동산을 제외한 자산을 평가하는 항목으로

써 자동차와 자동차 이외의 자산을 포함한 항목으로써 골 , 콘도

회원권, 골동품 술품, 고가의 내구재 등이 포함된다.

마지막으로 가구의 부채 총액은 크게 부채액과 임 보증 으로

나 수 있다. 부채액 이란 융기 혹은 그 이외의 비 융 기

에서 출을 받은 것을 뜻하며 서비스 마이 스 통장의 미상

환액 외상 할부 미상환액을 포함한다. 한 곗돈 미 불입 즉

앞으로 내야 할 곗돈과 부동산을 임 하고 난 후 받은 임 보증

도 부채의 범주에 속한다.

이러한 통계청의 자산의 정의에 기 하여 축총액과 부동산 시

가 평가액, 기타 자산 평가액의 총합에 부채총액을 감하는 형태로

실제 부(wealth)변수를 생성 하 으며 생성을 한 변수 선별은

KLIPS Data 내의 다음 변수들로 이루어 졌다.

- 축총액-

(1)( 융자산 총액) 은행

(2)( 융자산 총액) 주식, 채권, 신탁

Page 14: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

사용변수이름 정의 비고

deposit 소유 은행 총액 축총액

stock 소유 주식, 채권, 신탁 총액 축총액

insurance 소유 축성 보험 총액 축총액

(3)( 융자산 총액) 축성 보험

(4)( 융자산 총액) 아직 타지 않은 계

(5)( 융자산 총액) 빌려 돈

(6)임 보증

-부동산 시가평가액-

(1)거주지의 시가평가액

(2)거주지 외 부동산의 시가평가액

-기타 자산 평가액-

(1)소유 자동차의 재 시가

-부채총액-

(1)(부채잔액) 융기 부채

(2)(부채잔액) 비 융기 부채

(3)(부채잔액) 개인 으로 빌린 돈

(4)(부채잔액) 임 한 부동산의 임 보증

(5)(부채잔액) 앞으로 부어야 할 계

<표 3> 실제 부(Wealth) 변수 생성에 사용된 변수 이름과 정의

Page 15: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

변수명 측치 평균 표 편차 최소값 최 값

deposit 1650 1121.919 2472.975 0 33000

stock 1650 355.926 2271.513 0 50000

insurance 1650 140.161 623.128 0 12000

benefit 1650 23.468 209.518 0 5000

borrow 1650 54.655 552.548 0 15000

p_house 1650 13246.34 25321.51 20 800000

p_nonhouse 1650 3548.658 13426.68 0 130000

p_car 1650 7930.176 84944.26 0 17000

debt1 1650 3134.527 8598.104 0 180000

debt2 1650 84.237 1720.111 0 68000

debt3 1650 229.365 1351.248 0 23000

debt4 1650 875.543 3808.287 0 55000

debt5 1650 3.661 50.315 0 1200

benefit 아직 타지 않은 계 총액 축총액

borrow 타인에게 빌려 돈 총액 축총액

p_house 거주지의 주택시가 부동산 시가 평가액

p_nonhouse 거주주택 외 부동산의 재시가 부동산 시가 평가액

p_car 소유 자동차 시가 기타 자산 평가액

debt1 융기 부채 잔액 부채총액

debt2 비 융기 부채 잔액 부채총액

debt3 개인 으로 빌린 돈 액 잔액 부채총액

debt4 임 한 후 받은 임 보증 부채총액

debt5 미리 타고 부어야 할 계 잔액 부채총액

<표 4> 실제 부(Wealth) 변수 생성에 사용된 변수의 기 통계량

Page 16: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

1 11 1 12 2 1

2 21 1 22 2 2

1 1 2 2

p p

p p

n n n np p

y a x a x a xy a x a x a x

y a x a x a x

= + +

= + +

= + +

L

L

M M M

L

Ⅳ . 방 법 론 모 형

1 . 주성분 분석의 정의

본 논문에서는 주성분분석(Principal component analysis)을 이용

한 새로운 변수 추정의 신뢰성과 정확성을 증명하는 연구를 행하

다. 방법론의 증명을 하여 비화폐 자산 련변수들을 추출,

주성분 분석을 행하여 리부(Wealth)변수를 생성하고 이를 실제

부(Wealth)변수와 상 계 비교를 통해서 그 실효성을 입증 하고

자 한다.3)

주성분 분석이란 다차원의 데이터의 변량을 최 한으로 유지하며

차원축소를 행하는 방법이다.4) 즉, 다차원 변수의 변량을 주성분

(Principal component) 이라는 은 수의 변수로 축소하는 기법이

라 할 수 있겠다. 이때 주성분은 p개의 원 변수 ′

벡터의 선형결합이며 주성분 벡터Y는, Y=AX의 형태로 나타낼 수

있다. 즉 원 변수의 변량을 최 한 유지하는 선형결합의 형태를 찾

는 작업을 행하는 것이다. 따라서 의 식을 만족하는 선형계수행

렬 A를 찾는 작업에서부터 주성분 분석의 과정이 시작 된다.

원 변수의 선형 결합인 주성분 변수를 이용하는 것의 타당성은

원 변수의 변동합과 주성분 변수의 변동 합은 서로 같다는 것을

3) 실제 부(Wealth) 변수의 정의는 통계청에서 명시한 '순자산(Net Wealth)'의 정의에 입

각한다.

4) 권세 (2008)

Page 17: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

기 로 한다. 즉 원 변수 ′ 를 기 로 이들의 공통

요인을 추출한 주성분 변수 5)를 모두 분석에 활용

했을 시 주성분 변수의 변량은 원 변수의 변량과 같다는 것이다.

하지만 차원의 축소가 주목 인 주성분 분석에서는 생성된 주성분

변수를 모두 사용 하는 것은 의미가 없다. 따라서 실제의 연구에서

는 주성분 변수의 개수를 선택하는 여러 가지 기 에 따라서 변수

의 개수를 선택, 사용하여 차원 축소와 최 한의 변량 포함이라는

두 가지 목 을 달성한다. 본 논문에서도 마찬가지로 원 변수의 선

형 결합으로 생성된 주성분 변수를 이용, 여러 가지 주성분 변수

개수 선정의 기 들을 인용하여 차원축소와 최 한의 정보 유지를

목표로 한다.

원변수 ′ 의 주성분은 원변수의 분산 공분산 행렬

(∑)에 의해서 도출 된다. 6) 원 변수인 확률 벡터 ′

는 ≥ ≥ 인 고유치를 갖는 분산 공분산 행렬 (∑)7)

을 갖는 다고 하자. 분산공분산 행렬로부터 계산된 고유치와 각각

고유치에 상응하는 고유벡터를 도출하여 이들을 각각 주성분의 분

산과 주성분 변수의 계수로 사용한다. 원 변수의 선형결합인 주성

분 변수 생성에 있어 변수의 계수로 각각의 고유치에 응 하는

고유 벡터를 사용 한다는 것은 주성분 변수 간 독립성을 보장 할

수 있는 가장 뚜렷한 논증이 된다. 행렬이 칭 행렬일 경우 칭

행렬의 서로 다른 고유치에 응하는 고유벡터의 값들은 서로 직

교 한다는 계량학 이론이 이를 뒷받침하기 때문이다. 8)

5) 주성분의 개수는 실제 원 변수의 수와 같게 산출되나 차원 축소가 목 인 주성분 분석

에서는 체로 원 변수의 개수보다 은 개수의 주성분 변수를 택하여 분석에 활용한

다.

6) 측정단 의 통일을 해 표 화된 변수의 분산공분산 행렬인 상 계수 행렬을 이용하여

주성분을 생성할 수 있다. 본 논문에서는 표 화된 변수를 사용 하 으므로 상 계수

행렬에 의한 주성분의 생성이 이루어졌다.

7) 는 상 계수 행렬

8) 선형 수학과 응용 , 신항균 외 3인 (1998)

Page 18: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

정리 1 : 칭행렬 ∑ 의 서로다른 고유치에 응하는 고유벡터

는 서로 직교한다.

[증명 1]

- : 칭행렬 ∑ 의 서로 다른 고유치

- : 고유치에 응하는 고유 벡터

′ 임을 보이면 칭행렬 ∑ 의 서로 다른 고유치에 응하

는 고유벡터는 서로 직교한다는 정리를 증명해 보일 수 있다. 증명

과정은 다음과 같다.

고유치 고유벡터의 정의에 따라,

∑ ⋯⋯

∑ ⋯⋯

임을 알 수 있다. 한 R 이 칭행렬이라는 사실로부터 다음을

얻을 수 있다.

∑ ′ ′⇔ ′ ∑ ′ ′⇔ ′ ∑ ′

이로부터 다음이 성립한다.

∴′ ∑ ′ ⋯⋯

Page 19: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

식(2)로부터

′ ∑ ′ ⋯⋯

임을 알 수 있으며 식 (3), (4) 로부터

′ ′ ⋯⋯

식을 도출할 수 있다. 행렬 R의 고유치는 서로 다름( ≠ )을

가정 하 으므로 (5) 번 식을 만족 시킬 수 있는 방법은 ′

이라는 결론에 도달하는 것뿐이다.

따라서 칭행렬 R의 서로 다른 고유치 ( )에 응하는 고

유벡터( )는 서로 직교 한다는 정리(1) 의 내용을 증명 할 수

있다. 9)

2 . 주성분 변수의 특 성10)

주성분 변수가 가지는 특성을 살펴보면 주성분 변수()의 생성

시 분산공분산행렬 (∑)의 고유치() 와 그에 응하는 고유벡터

()를 사용 하는 명분에 해 좀 더 알 수 있다.

주성분 변수가 가지는 특성은 다음과 같다.

-제1주성분

9) 좀 더 자세한 내용은 선형대수학과 응용, 신항균 외 3인 (1998)의 243p - 277p 를 참

고 할 수 있다.

10) Johnson & Wicher (2007) 참조

Page 20: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

′ 를 만족하고 선형결합 ′ 의 분산을 최 화

하는 고유벡터 ′ 를 찾아서 ′ 를 제 1 주성분

이라고 한다.

-제2주성분

′ 과 ′ 을 만족하고 선형결합 ′ 의 분

산을 최 화 하는 고유벡터 ′를 찾아서 ′ 를

제 2 주성분이라고 한다.

여기서 한 가지 주목해야 할 부분은 제 2 주성분은 ′ 과 ′의 직교성에 한 제약조건이 추가 되었다는 이다. 이는 칭행

렬 ∑의 서로 다른 고유치에 응하는 고유벡터는 서로 직교 한다

는 정리(1)의 내용과 일치한다.

-제 3 주성분

′ 과 ′ ′ 를 만족하고 선형결합

′ 의 분산을 최 화 하는 고유벡터 ′ 를 찾아

′ 를 제 3 주성분 이라고 한다.

-제 번째 주성분

′ 과 ′ (단, ≠) 를 만족하는 선형결합

′ 의 분산을 최 화 하는 고유벡터 ′ 를 찾아서

′ 를 제 번째 주성분이라고 한다.

첫 번째 주성분은 원 변수의 변량을 가장 많이 설명하는 변수이

며 이는 첫 번째 주성분이 설명하지 못한 나머지 변량 가장 큰

Page 21: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

부분의 변량을 설명하는 두 번째 주성분과 직교 계가 있다. 세

번째 주성분은 첫 번째 두 번째 주성분이 설명하지 못한 변량

가장 큰 변량을 설명하는 주성분이며 이 한 첫 번째 두 번째 주

성분과 직교 계를 갖는다. 이러한 방법은 p 번째의 주성분 까지

용되며 p 번째의 주성분을 모두 사용 할 경우 원 변수의 체

변량을 모두 설명 할 수 있게 된다.

본 논문에서는 측정된 원 변수 각각의 측정단 를 통일하기 하

여 본 논문에서는 원 변수의 평균과 표 편차를 이용한 표 화된

변수()를 사용하 다.

원 변수 의 표 화 공식은 다음과 같다.

의 식에서 는 표 화된 변수를 는 원 변수 의 평균을

는 원 변수의 표 편차를 의미한다. 이러한 표 화 과정은 변수가

평균 0 과 분산 를 갖게 하는 결과를 가져온다.

표 화된 변수의 분산공분산행렬 (∑)은 원 변수의 상 계수 행

렬(R)과 같다는 을 감안해 볼 때, 표 화된 변수를 주성분 분석

에 사용한다는 것은 원 변수 상 계수행렬 (R)을 이용하여 고유치

()와 고유벡터()를 산출해 내고 이를 주성분 변수의 구성에 사

용한다는 것을 의미한다.

상 계수행렬 (R)의 고유치 () 와 고유벡터()의 짝을 각각

( ), ( ), ⋯⋯ ( )라고 한다면 번째 주성분은 다음과 같

다.

⋯⋯

Page 22: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

이처럼 고유치()와 고유벡터()는 이용한 원 변수의 선형 결합

을 구성하는 계수의 형태로 사용 되며 이는 원 변수의 최 분산을 유지

하는 선형 결합을 찾는 과정과 일치한다 . 실제로 주성분 변수의 개

수는 원 변수의 개수와 일치하며 주성분 변수 체의 총 변량은

원 변수 체의 총 변량과 일치하는 양상을 보인다.

이와 같은 사실을 바탕으로 주성분 변수 는 다음과 같은

특징을 가진다.

′ ∑ ′ ∑

이는 주성분 변수의 분산 은 고유치()와 일치하며

서로 다른 주성분 (단 ≠ ) 간 상 계가 없음을 즉, 서

로 독립 이라는 성질을 지니고 있음을 나타낸다. 이는 주성분 변

수들 분산의 총합이 원 변수 분산의 총합과 같다는 의미와 일맥상

통 한다.

정리 2: 주성분 변수들 분산의 총합은 원 변수 분산의 총합과 같다.

[증명 2]

∑ ∧ ′ ∧ ′ ∧

=

∧ 대각원소가∑의고유치인대각행렬 ′ ′ 을만족하며고유치에대응하는고유벡터로구성된직교행렬

본 논문에서는 주성분 분석이 갖는 이러한 특성들을 토 로 10차

Page 23: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

KLIPS의 가구용 변수들 자산변수에 직, 간 으로 향을 미

치는 자산 련 변수들을 선별하여 주성분 분석을 용, 실제 부

(Wealth) 변수와 비교 가능한 리 부(Wealth) 변수의 생성을 시

도 하 다. 이는 원 변수의 분산을 최 한 설명하는 선형결합을 찾

는 주성분 분석의 특징을 기 로 하여 생성된 리 부(Wealth) 변

수가 실제 부(Wealth) 변수의 역할을 어느 정도 체 할 수 있을

것인가의 연구가 될 것이며 이러한 비교 연구는 주성분 분석이라

는 방법론의 실효성을 증명하는 명분 있는 연구가 될 것이다.

3 . 리 부(Wealth) 변수의 모 형

실제 부(Wealth) 변수와 리 부(Wealth) 변수의 비교 작업을

하여 본 논문에서는 통계청의 정의를 따르는 표 화된 순자산 변

수를 생성하고, 표 화된 변수 의 분산 공분산 행렬 (∑)의 고

유치 () 와 그에 응 하는 고유벡터 ()를 이용한 리 부

(Wealth) 변수를 생성한다.

주성분 분석을 이용한 리 부(Wealth)변수의 생성은 다음의 모

형을 기 로 한다

⋯⋯

번째 가구의 대리부변수

표준화 작업을 거친 번째 가구의 번째 자산 관련 변수 표준화작업을거친자산 관련변수벡터

의분산공분산행렬 ∑의고유치에 대응하는고유벡터

의 모형에서 는 주성분 분석을 통해 생성된, j번째 가구의

Page 24: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

리부(Wealth) 변수를 나타내며 는 표 화 작업을 거친

j번째 가구의 i 번째 자산을 나타낸다. 는 표 화된 자산 련

변수벡터 X의 분산공분산 행렬11)의 고유치() 에 응하는 i번째

고유벡터를 나타낸다.

이러한 모형을 기 로 각 가구의 리 부(Wealth) 변수를 생성

해 낼 수 있으며 이를 통계청 자산의 정의에 기 한 실제 부

(Wealth) 변수와의 비교하는 작업 한 행할 수 있다.

Ⅴ . 실 증 분석

1 . 주성분 분석

에서 살펴본 바와 같이 주성분분석은 다차원의 변수를 분산을

최 로 유지함을 목표로 차원축소를 행하는 작업을 한다. 주성분분

석을 용할 변수들을 선별하고 이들의 고유치와 고유벡터를 구하

여 이를 각 변수의 계수로 사용하는 것이다. 이러한 과정들을 통하

여 변수의 공통요인을 추출하고 한 변수 간 독립성을 완벽히 보

장하게 된다는 에서 큰 의의가 있다.

본 논문에서는 측정단 의 통일성을 보장하기 하여 각 변수를

평균과 표 편차를 이용하여 표 화한 표 화 변수를 이용하여 주

성분 분석을 행하 다. 주성분 분석으로부터 생성한 주성분과 해당

고유치 정보는 다음과 같다.12)

11) 원 변수의 상 계수 행렬과 동일하다.

12) 주성분 변수의 총 개수는 원 변수의 개수와 같다.

Page 25: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

주성분 고유치 차이 비율고유치비율

제1주성분 3.60579 1.92144 0.4006 0.4006

제2주성분 1.68435 .645479 0.1872 0.5878

제3주성분 1.03887 .157305 0.1154 0.7032

제4주성분 .881568 .0524288 0.0980 0.8012

제5주성분 .829139 .126857 0.0921 0.8933

제6주성분 .702282 .470314 0.0780 0.9713

제7주성분 .231968 .208992 0.0258 0.9971

제8주성분 .0229762 .0199229 0.0026 0.9997

제9주성분 .00305332 - 0.0003 1.0000

변수 정의 제1주성분 제2주성분 제3주성분

Sh_style1 자가 0.5153 -0.0704 -0.0913

Sh_style2 세 -0.3968 0.3689 -0.4205

Sh_style3 월세 -0.2210 -0.4014 0.7137

So_hsize 자가 평수 0.4768 -0.0051 -0.0304

Sr_hsize 비자가 평수 -0.5087 0.1115 0.0755

S_realest1 거주 주택 외부동산소유여부 0.0194 0.4041 0.3463

Sn_car 소유 자동차 수 0.1413 0.4391 0.2622

Sn_edu 자녀 평균사교육 개수 0.1108 0.3588 0.2993

Seco_condition 재경제상태 -0.0971 -0.4478 -0.1433

<표 5 > 주성분 분석

이처럼 주성분 분석을 통해 생성된 9개의 주성분을 이용, 리

부(Wealth) 변수를 생성하는 것이 본 연구의 목 이다. 상 행렬의

고유치에 응하는 고유벡터로 이루어진 주성분 수는 변수마다

각각 부여되었으며 부여된 주성분 수에 한 정보를 토 로 각

변수가 리 부(Wealth) 생성에 어떠한 향을 미치는지 알 수 있

다.

선별된 9개의 변수가 부여받은 주성분 수는 다음과 같다.

<표 6 > 주성분에 사 용 된 변수 별 주성분 수13)

Page 26: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

변수 정의 제4주성분 제5주성분 제6주성분

Sh_style1 자가 0.0195 -0.0609 -0.0050

Sh_style2 세 0.0693 0.0275 0.0343

Sh_style3 월세 -0.1224 0.0499 -0.0422

So_hsize 자가 평수 0.0190 0.0190 -0.0003

Sr_hsize 비자가 평수 -0.0280 0.0761 0.0136

S_realest1 거주 주택 외부동산소유여부 0.3270 -0.7782 0.0604

Sn_car 소유 자동차 수 -0.3410 0.2602 0.7280

Sn_edu 자녀 평균사교육 개수 0.6174 0.5599 -0.2633

Seco_condition 재경제상태 0.6118 0.0077 0.6276

변수 정의 제7주성분 제8주성분 제9주성분

Sh_style1 자가 -0.2714 0.3867 0.7027

Sh_style2 세 0.1972 -0.3991 0.5698

Sh_style3 월세 0.1418 -0.2573 0.4184

So_hsize 자가 평수 0.8779 -0.0158 -0.0052

Sr_hsize 비자가 평수 0.2932 0.7899 0.0800

S_realest1 거주 주택 외부동산소유여부 0.0137 0.0028 -0.0011

Sn_car 소유 자동차 수 -0.0635 -0.0221 -0.0008

Sn_edu 자녀 평균사교육 개수 -0.0734 -0.0081 -0.0008

Seco_condition 재경제상태 0.0322 0.0124 0.0016

<표 6 > 주성분에 사 용 된 변수 별 주성분 수(계 속 )

<표 6 > 주성분에 사 용 된 변수 별 주성분 수(계 속 )

원 변수의 변량 가장 많은 부분(약 40%)을 설명하고 있는 제

1 주성분(component1)을 살펴보면 실제로 추정 리 부(Wealth)변

수에 각 변수가 미치는 향을 확인 할 수 있다.

자가, 세, 월세 변수는 응답자가 실제 거주하고 있는 거주지의

13) 사용된 모든 변수는 식을 이용, 표 화 되었다.

Page 27: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

입주 형태를 나타내는 변수이다. 세 가지 변수 자가의 경우

세 월세에 비해 높고 정(+)의 향을 나타내는 주성분 수를 부여

받았다. 즉, 주거형태가 자가에 속한 가구는 리 부(Wealth) 변수

생성에서 좀 더 높은 수를 얻을 수 있다는 것을 의미한다. 반면,

세 혹은 월세에 거주하는 것으로 응답한 가구의 경우 더 낮고

부(-)의 향을 미치는 있는 주성분 수를 부여 받았다. 이는 일

반 으로 가구의 부(Wealth) 수 에 정(+)의 향을 미치는 변수

항목의 경우 높은 수를 부여 받았다는 사실을 알 수 있다.

주거지의 평수를 나타내는 자가의 체 평수 변수와 비자가의 실

제 사용 평수 변수도 각각 리 부(Wealth) 변수에 미치는 향을

뚜렷이 나타내고 있다. 입주 형태가 자가인 가구의 경우 평수가 커

질수록 높은 수를 획득하여 리 부(Wealth) 형성에 있어 정(+)

의 향을 미침을 알 수 있다. 반면 입주 형태가 비자가인 가구의

경우 평수가 커질수록 오히려 리 부(Wealth)에 부(-) 의 향을

미치는 것으로 나타났다. 이는 자가의 경우 비자가의 경우 보다 더

높은 수를 획득 할 수 있음을 분명히 알려 다.

더미 변수로 코딩된 거주 주택 외 부동산 소유 여부의 항목 한

정(+)의 값을 갖는 주성분 수를 부여 받음으로써 거주 주택 외

부동산을 소유 하고 있는 가구의 경우 그 지 않은 가구 보다 더

높은 리 부(Wealth) 변수를 가질 가능성을 시사하고 있다.

수와 개수로 조사된 빈도 변수인 자동차 소유 수와 두 자녀

의 사교육 평균 개수 한 리 부(Wealth) 변수에 정(+)의 향을

미치는 주성분 수를 부여 받았다.

이를 해석해 보자면 자동차의 소유 수와 두자녀의 사교육 평균

개수는 가구의 부(Wealth) 수 을 상하는데 정(+)의 효과를 기

할 수 있음을 뜻한다. 자동차 소유 수와 사교육 평균 개수가 보

다 많은 가구의 경우 더 높은 리 부(Wealth)를 획득 할 수 있다.

마지막 변수는 응답자가 느끼는 재 경제 상태 변수 이다. 당

변수는 리 부(Wealth) 변수 생성에 부(-)의 향을 미치는 주성

Page 28: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

분 수를 부여 받았다 이는 (1) 매우 여유 있다 (2)여유가 있는

편이다. (3) 보통이다 (4) 조 어려운 편이다. (5) 매우 어렵다. 의

보기로 구성 되어 있는 재 경제 상태 변수 항목을 살펴보았을

때 매우 한 수 부여라는 을 확인 할 수 있다. 즉, 매우 여

유가 있다. 라고 응답한 가구의 경우가 매우 어렵다. 의 응답을 택

한 가구 보다 더 높은 리 부(Wealth)를 얻게 된다.

이 듯 제 1 주성분변수의 결과는 본 논문에서 가정하 던 자산

련 변수와 리 부(Wealth) 변수간의 상 계를 잘 설명 해주

고 있다. 각 변수에 부여된 주성분 수의 정보로 알 수 있듯이 일

반 으로 가구의 부(Wealth) 수 에 정 (+)의 향을 주는 것으로

간주 되는 변수는 부(-)의 향을 주는 것으로 간주되는 변수 보다

더 높은 주성분 수를 획득 하 다

2 . 주성분 개 수의 선 택

주성분 분석 과정에서 산출된 변수벡터의 고유치는 주성분 변수

의 분산을 나타내며 고유치는 생성된 주성분변수 몇 개의 주성

분변수가 얼마만큼의 분산을 설명하는지에 한 정보를 제공하는

역할을 한다. 주성분변수의 개수는 실제 원 변수의 개수와 동일하

므로 몇 개의 주성분 변수를 선택하여 원 변수의 차원 축소를 이

루어 낼 것인지를 선택하는 주성분 변수 개수의 고려는 주성분 분

석의 마지막 단계라고 하겠다.

한 주성분의 개수를 선택하는 방식에는 여러 가지가 있는데

본 논문에서는 세 가지의 각기 다른 주성분 개수 선택 기 들을

도입하여 리 부(Wealth) 변수를 생성하 다. 세 가지 방식을 모

두 용하여 각각의 리 부(Wealth) 변수와 실제 부(Wealth) 변

수 간 상 계를 살펴보고 가장 유의한 기 과 방법이 무엇인지

에 한 결론을 도출하 다.

그 첫 번째 방식으로는 주성분 변수의 고유치가 1이상인 주성분

Page 29: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

변수만을 채택하여 사용 하는 카이 (Kiser) 기 이 있다. 고유치

가 주성분 변수의 분산을 나타낸 다는 을 상기 해본다면 이러한

방식의 기 에 한 한 설명이 될 것이다.

두 번째 방식으로는 주성분 변수의 고유치가 일정한 기 에

도달하는 경우의 주성분 변수의 개수를 선택하는 기 인 고

유치 비율 기 이 있다. 일반 으로 고유치가 80%정도를 상

회하는 수 에서 주성분 변수의 개수를 선택 하는 방법이다. 이는

선택된 주성분 변수가 총 분산의 80%를 설명하는 수 에 도달하는

변수들을 고려하여 최종 주성분 변수 개수로 선택한다는 것과 일

맥상통한다.

마지막 세 번째 방법은 체 변량 가장 많은 부분을 설명하는

주성분인 제1주성분만을 사용하여 분석에 임하는 방식이다. 주성분

간의 독립성을 철 히 보장하는 것이 주성분 분석의 특징 이므로

제 1주성분만을 사용함에 있어 발생하는 락 변수의 문제는 고려

치 않아도 무방하다.14)

본 논문에서는 앞에서 언 한 주성분 개수 선택을 한 세 가지

기 모두를 이용, 리 부(Wealth) 변수를 생성하 으며 각 기

과 방법의 차이 을 비교, 조하는 작업을 실시하 다.

1) 카이 기

카이 기 에 의한 주성분 개수 선택 기 은 고유치의 값이 1이

상인 주성분을 택하여 분석에 사용 하는 기법이다. 본 연구에서 행

한 주성분 분석에서는 제1주성분이 3.60579, 제2주성분 1.68435, 제3

주성분 1.03887으로 세 개의 주성분만이 고유치 1을 상회하는 값을

가졌다. 제4주성분 이후의 주성분은 모두 1이하의 고유치 값으로

주성분 변수로의 채택에서부터 제외되었다.

14) Filmer & Pritchett (2001)

Page 30: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

세 개의 주성분으로 하나의 리 부(Wealth) 변수를 생성하기

하여 노용환 신종각(2007)과 Slottje(1991)등에서 사용한 가 평균

을 이용한 주성분변수의 생성을 용 하 다. 카이 기 을 이용

한 리 부(Wealth) 변수의 모형은 다음과 같다

의 식에서 제1주성분, 제2주성분, 제3주성분의 계수로 사용된

는 가 평균을 해 할당된 가 치를 나타낸다.

( )

생성된 p 개의 변수 (k=3)에서 도출된 고유치의 합 즉, 세 개의

변수 분산의 총합 에서 k 번째 주성분에 의해 설명되는 비율을

각 주성분의 계수 사용하 다. 이는 각 주성분이 설명하는 비율에

따라 가 치를 부여함으로써 자의 이고 편 인 단을 하지 않

도록 도와 다.

우선 카이 기 에 의한 리 부(Wealth)변수의 생성을 하여

선별된 제1주성분, 제2주성분, 제3주성분 각각을 이용, 리 부

(Wealth) 변수를 생성한다.

= ( 0 . 5 1 5 3 ) * S h _ s t y l e 1 + ( - 0 . 3 9 6 8 ) * S h _ s t y l e 2 + ( - 0 . 2 2 1 0 ) * S h _ s t y l e 3 +

( 0 . 4 7 6 8 ) * S o _ h s i z e + ( - 0 . 5 0 8 7 ) * S r _ h s i z e + ( 0 . 0 1 9 4 ) * S _ r e a l e s t 1 + (0.1413)*Sn_car+(0.1108)*Sn_edu+(-0.0971)*Seco_condition

= ( - 0 . 0 7 0 4 ) * S h _ s t y l e 1 + ( 0 . 3 6 8 9 ) * S h _ s t y l e 2 + ( - 0 . 4 0 1 4 ) * S h _ s t y l e 3 +

( - 0 . 0 0 5 1 ) * S o _ h s i z e + ( 0 . 1 1 1 5 ) * S r _ h s i z e + ( 0 . 4 0 4 1 ) * S _ r e a l e s t 1 + (0.4391)*Sn_car+(0.3588)*Sn_edu+(-0.4478)*Seco_condition

Page 31: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

= ( - 0 . 0 9 1 3 ) * S h _ s t y l e 1 + ( - 0 . 4 2 0 5 ) * S h _ s t y l e 2 + ( 0 . 7 1 3 7 ) * S h _ s t y l e 3 +

( - 0 . 0 3 0 4 ) * S o _ h s i z e + ( 0 . 0 7 5 5 ) * S r _ h s i z e + ( 0 . 4 0 4 1 ) * S _ r e a l e s t 1 + (0.2622)*Sn_car+(0.2993)*Sn_edu+(-0.1433)*Seco_condition

각각의 변수에 부여된 주성분 수, 즉 고유벡터를 계수로 사용

하여 리 부(Wealth)를 나타내는 새로운 변수로 생성 하 다.

이 게 생성된 세 개의 리 부(Wealth) 변수를 각 변수의 고유

치 비율을 가 치한 가 평균을 통해 카이 기 의 리 부

(Wealth) 변수로 재생성 하 다.

2) 고유치 비율 기

주성분 개수의 선택의 다른 방법으로 고유치 비율 기

이 있다. 설명도가 일정한 값에 도달 하는 주성분 개수를 선

택 하는 방법으로 통상 으로 80%정도의 선에서 그 기 을 정한

다. 주성분 분석을 통하여 생성한 주성분 제1주성분, 제2주성분,

제3주성분 제 4 주성분까지의 고유치 비율이 80.12%로

고유치 비율의 기 을 상회한다.

따라서 제 1 주성분부터 제 4 주성분 까지 네 개의 주성분을 선

택하여 분석에 사용할 수 있다. 카이 기 에서 선택된 변수들의

처리와 마찬가지로 고유치 비율이 80%에 도달하는 네 개의

주성분을 이용하여 각각의 리 부(Wealth)변수를 생성하고 이를

가 평균하여 하나의 변수로 재생성 하 다.

에서 제 1 주성분부터 제3 주성분까지의 리 부(Wealth) 변수

를 이미 생성하 으므로 본 과정에서는 제 4 주성분의 리 부

Page 32: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

(Wealth) 변수를 생성하여 분석에 포함시킨다.

= ( 0 . 0 1 9 5 ) * S h _ s t y l e 1 + ( 0 . 0 6 9 3 ) * S h _ s t y l e 2 + ( - 0 . 1 2 2 4 ) * S h _ s t y l e 3 +

( 0 . 0 1 9 0 ) * S o _ h s i z e + ( - 0 . 0 2 8 0 ) * S r _ h s i z e + ( 0 . 3 2 7 0 ) * S _ r e a l e s t 1 + (-0.3410)*Sn_car+(0.6174)*Sn_edu+(-0.0971)*Seco_condition

고유치 비율 기 에 따라 제1 주성분, 제2 주성분, 제3 주성

분 제4 주성분을 이용 하여 생성한 리 부(Wealth) 변수는 다음

과 같다.

=

3) 제 1 주성분의 사용

주성분 개수의 선택 세 번째 방식은 체 변량 가장 많은 부

분을 설명하는 제 1 주성분만을 변수로 사용 하는 것이다. 본 논문

의 분석 결과에서 제 1 주성분의 고유치와 고유 비율은 각각

3.60579 과 0.4006 로 높은 수 의 값을 가졌다.

주성분의 분산이 고유치와 같은 값을 갖는 다는 을 미루어 볼

때 고유치가 가장 큰 제 1 주성분만을 변수로 사용 한다는 것은

체 주성분 가장 분산이 큰 즉, 설명력이 가장 높은 주성분만

을 택하여 변수화 한다는 것과 동일한 의미를 가진다.

한 주성분 간 독립성이 완벽히 보장 된다는 에서 락변수로

인해 발생할 수 있는 여러 가지 오류들로부터 자유로울 수 있다는

도 제 1 주성분만을 사용하는데 커다란 이론 배경이 된다.

제 1 주성분만을 이용한 리 부 (Wealth) 변수의 생성은 카이

기 용 시 생성했던 변수를 리 부(Wealth) 변수로 사용

하는 것으로 모든 과정이 만족된다.

Page 33: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

=

3 . 리 부(Wealth) 변수와 실 제 부(Wealth)변수의 정의

본 논문에서는 지 껏 주성분 분석을 이용하여 원 변수의 개수

만큼의 주성분을 생성하고 이를 리 부(Wealth) 변수로 재생성

하는 과정을 연구를 진행 해왔다.

주성분 개수 선택 기 에 따라 총 세 개의 리 부(Wealth) 변수

를 생성했으며 그 변수의 정의는 다음과 같다.

(1) : 카이 기 에 의거한 리 부(Wealth) 변수

(2) : 고유치 비율 기 에 의거한 리 부(Wealth) 변수

(3) : 첫 번째 주성분만을 사용한 리 부(Wealth) 변수

한 앞에서 언 했던 바와 같이 통계청에서 명시한 순자산에

한 정의를 이용하여 실제 부(Wealth) 변수를 생성하 으며 순

자산 한 정의는 다음과 같다.

순자산 = ( 축총액 + 부동산 시가 평가액 + 기타 자산 평가액) – 부채총액

축총액 = deposit + stock + insurance + benefit + borrow

부동산 시가 평가액 = p_house + p_nonhouse

기타 자산 평가액 = p_car

부채총액 = debt1 + debt2 + debt3 + debt4 + debt5

립식 축액과 주식, 채권 등의 목돈투자의 축액에 ,월세

보증 , 곗돈 불입 등을 합한 형태의 축 총액 변수와 주택과

주택 이외의 부동산 소유물에 한 재 시가를 나타낸 부동산 시

Page 34: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

가 평가액, 그리고 부동산을 제외한 자산을 평가하는 항목인 기타

자산 평가액 을 총합한 총자산 변수에 가구의 부채액을 나타내는

부채총액 변수를 감한 형태를 통해 순자산 변수가 생성된다.

15) = 순자산 (실제 부 변수)

4 . 리 부(Wealth) 변수와 실 제 부(Wealth) 변수의 비 교

본 논문에서는 이처럼 두 가지 상이한 방법론으로부터 생성된 부

(Wealth) 변수 간 계분석을 하여 스피어만 순 상 계수 분

석 방법을 채택하여 리 부(Wealth) 변수와 실제 부(Wealth) 변

수간의 비교작업을 행하 다.

1) 스피어만 순 상 계수

Deon filmer and Lant H. Pritchett의 2001년 논문에서와 마찬가

지로 리 부(Wealth) 변수와 실제 부(wealth) 변수를 이용, 두 방

법론의 비교작업을 실시하 으며 두 변수를 이용한 경제주체의 경

제 부(Wealth)지 정도의 비교를 하여 스피어만의 순 상

계수를 사용하 다.

스피어만 순 상 계수는 변수들 간의 상 계를 변수의 순

로 정의 하는 분석 방법이다. 즉 비교하려는. 자료를 작은 값에서

부터 큰 값으로 순 를 매겨 서열화 한 후 두 자료의 연 계에

하여 보여주는 방법론으로 순 를 분석의 매개로 사용함에 따라

두 변수 간 선형, 비선형 계에 한 제약이 없음이 큰 장 이다.

실제로 변수를 서열화 한 후 상 계 분석을 행하면 정확히 스피

어만 순 상 계수의 값을 도출 해 낼 수 있다. 스피어만 순 상

15) 리 부(Wealth) 변수와 실제 부(Wealth) 변수 간 측정 단 를 통일시키기 하여 표

화된 실제 부(Wealth) 변수의 값을 사용 하 다.

Page 35: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

측치 수 1638 1638 1638

과의

스피어만 결과0.5927 0.5808 0.5306

귀무가설 와 은 독립이다 와 은 독립이다 와 은 독립이다

p값 Prob>|t|=0.000 Prob>|t|=0.000 Prob>|t|=0.000

계수는 -1과 1사이의 값을 가지게 되며 두 변수의 데이터 값의

순 가 정확히 일치할 경우 1의 값을 갖게 되며 두 변수의 데이터

값의 순 가 정확히 반 로 나타날 경우 -1값을 갖는다.

<표 7 > 스 피 어만 순 상 계 수 결 과

<표 7>에서는 주성분 분석을 이용해 생성한 네 가지의 리 부

(Wealth) 변수와 실제 부(Wealth) 변수의 스피어만 순 상 계수

test의 결과를 나타내고 있다.

그 결과에 따르면 카이 기 의해 생성된

와 실제 부

(Wealth) 변수 간 스피어만 순 상 계수는 0.5927로 정(+)의 상

계를 보이고 있음을 알 수 있다. 한 p 값이 매우 유의하게

리 부(Wealth) 변수

와 실제 부(Wealth) 변수 의 독립

계를 가정한 귀무가설을 기각하고 있다. 이는 주성분으로 생성한

새로운 리 변수가 실제 변수와 양의 상 계가 있음을 보여

다고 하겠다.

마찬가지로 고유치 비율 기 에 의해 생성된 리 부

(Wealth) 변수

, 첫 번째 주성분만을 사용한 리 부(Wealth)

변수인

, 모두 각각 0.5808 , 0.5306의 값을 나타내며 실제 부

(Wealth) 변수와의 정(+)의 계를 증명해 보 다. 이 세 가지 변

수 모두 실제 부(Wealth) 변수와의 독립 계를 가정한 귀무가설을

유의한 p 값으로 기각하 다.

Page 36: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

이처럼 주성분 분석을 통해 생성된 리 부(Wealth) 변수와 순자

산으로 정의한 실제 부(Wealth) 변수 간 정(+) 의 상 계가 존재

한다는 스피어만 순 상 계수의 결과는 리 부(Wealth) 변수의

생성에 사용된 방법론인 주성분 분석에 한 명분과 실효성을 증

명해 수 있는 결과라고 할 수 있다.

즉, 주성분 분석을 이용해서 실제 연구에서 사용되고 있는 여러

가지 지표나 변수, 측정치 들을 최 한 설명 할 수 있는 리 변수

를 생성해 낼 수 있음을 시사한다.

Ⅵ . 결 론 시 사

기존에는 변수의 특성에 따라 여러 가지 방법론을 통해 목표하는

연구의 결과를 얻어 내는 수많은 방법들이 존재하고 있다. 많은 방

법론들의 경우 독립변수와 종속변수의 존재 시 이 둘 간의 상

계를 측정할 수 있는 독립변수의 계수값에 한 연구들이 많은 수

를 차지한다.

본 논문에서 제시한 주성분분석은 독립변수들의 공통 요인을 추

출하여 하나의 종속변수로 만들어 다는 새로운 시도의 방법론이

라 하겠다. 한 독립변수들 간의 독립성을 완벽히 보장한다는

에서 기존에 독립변수의 오류에 따른 어려움을 해결해 수 있는

해결책으로써의 역할도 가능할 것으로 보인다.

본 논문에서는 주성분분석의 이러한 장 들을 고려, 방법론의 명

확성과 실효성을 입증하는데 연구목표를 두었다. 2007년도 가구용

KLIPS Data를 이용하여 리 부(Wealth) 변수와 실제 부(wealth)

를 구하고 이를 주성분분석을 이용해 생성한 변수와 실제 변수간

의 비교작업으로 발 시켰다. 같은 Data Set 하에서 서로 다른 두

가지의 방법론을 통해 산출된 결과의 비교는 본 논문에서 증명하

Page 37: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

고자 하는 주성분분석에 한 신빙성 증명에 큰 힘을 실어 주었다.

두 방법론으로 각각 산출된 부(Wealth)변수를 각 가구의 부

(Welth)수 을 나타내는 변수로 정의하고 각각의 순 를 서열화

한 후 두 변수의 순 에 한 상 계를 비교하는 작업을 행하

으며 그 결과 주성분분석으로 생성한 리 부(Wealth)와 통계청

자산의 정의에 의해 산출된 실제 부(wealth)변수 간 유의할만한 양

(+)의 상 계가 있음이 입증되었다.

부(Wealth)라는 더미 변수와 빈도 변수로 추정한 리 부

(Wealth) 변수와 실제 실물 화폐 가치로 추정한 실제 부

(Wealth) 변수 간 상 계가 존재 한다는 것은 큰 의미를 지닌다.

두 변수간의 상 계가 있음을 입증 하는 것은 주성분분석을 이

용한 새로운 변수의 추정의 실효성과 신뢰성을 증명하는 것과 다

를 바가 없다. 좀 더 세 한 선별변수의 선택과 주성분 변수를 하

나로 축약할 수 있는 신뢰할만한 있는 변수 설정이 추가 된다면

좀 더 향력 있는 방법론으로의 발 가능성을 기 할 수 있겠다.

Page 38: 주성분 분석을 통해 만들어진 대리변수의 정확도 측정: 부(Wealth ... · 2010-08-30 · 주성분 분석을 통해 만들어진 대리변수의 정확도 측정:

참고 문 헌

정갑 ․강 은(2007), “주성분 분석을 이용한 북한의 총국민소득

(GNI)추정,” 한국 비교 경제학회.

천병철․박나연(2005), “ 융변수의 공통요인을 이용한 융상황지

수 개발,” 『조사통계월보』, 61(700): 23-43, 한국은행

David J. Mckenzie(2003), “Measuring Inequality with Asset

Indicators,” Journal of Population Economics.

I.T Jolliffe(2002), “Principal Component Analysis”.

Julien Labonne, Dan Biller and Rob Chase(2007), “Inequality and

Relative Wealth: Do They Matter for Trust? Evidence from

Poor Communities in the Philippines,” Social development

papers Paper No. 103.

Deon filmer and Lant H.(2001), “Estimating wealth effects

without expenditure data-or tears: An application to

educational enrollments in states of India," Demography,

Vol. 38, No. 1.

Phusit Prakonhsai(2006), “An application of asset index for

measuring household living standards in Thailand,”

International Health Policy Program (IHPP) - Thailand