16
다중 회귀분석 지리통계학 제10강 최재헌 교수

다중회귀분석 - KOCWelearning.kocw.net/contents4/document/lec/2013/Konkuk/...• 다중회귀분석 에서는설명변 수들간에상관 성이없어야함. • 설명변수들간

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

다중 회귀분석

지리통계학 제10강

최재헌 교수

다중 회귀분석의 기본원리

(1)다중 회귀분석의 개념– 하나의 종속변수와 여러 개의 독립변수(설명

변수)와의 관계를 파악

– 다른 설명변수의 영향력을 통제한 상태에서특정한 설명변수와 종속변수와 관계 파악

– 최소자승법을 통해 k차원의 공간에서 가장적합한 회귀평면 추정

– 변수들간의 정규성, 산포도, 상관관계 파악이전제 (그림 9-1, p.299)

– Y = Xb + e 의 열벡터로 표현

(2) 회귀계수의 표준화

– 회귀계수(Beta)는 개개의 설명변수와 종속변수간의 관계를 표현, 측정단위에 따라 회귀계수가 달라짐.

– 회귀계수의 크기 비교를 위해 회귀계수를 표준화시킴• 원자료를 표준화 점수(z-score)로 변환 시킨후 회귀 분

석을 실행, 베타계수(B)는 모든 설명변수와 종속변수를표준화 점수로 변환 후에 측정한 계수

• 설명변수의 표준편차(Sx)를 종속변수의 표준편차(Sy)로나눈 비율을 각각의 회귀계수에 곱하여 측정척도에 따른 차이를 보정하는 방법

– 설명변수의 표준화한 회귀계수가 크다는 것은 이설명변수에 의해 종속변수가 더 큰 영향을 받고있다는 의미

(3) 편상관계수와 부분상관계수

• 편상관계수(partial correlation coefficient): – 다른 설명변수들의 영향이 통제된 상태에서 해당 설명변수가 한

단위 증가할 때 종속변수의 변화량을 나타내는 계수,

– 여러 설명변수의 효과를 제어한 경우 종속변수와 특정 설명변수간에 나타나는 상관계수

– 표준화 회귀계수와 마찬가지로 개개의 설명변수의 독자적인 영향력을 측정, 즉 각각의 설명변수에 의해 설명되어진 종속변수의분산 비율

• 부분상관계수(part correlation)

편상관계수값 > 부분상관계수

다중 회귀모델의 설정과 모델 검정

(1) 모델의 설정 단계

– 목적: 종속변수에 영향을 미치는 설명변수를 통해 종속변수의 총 분산을 최대한도로 설명

– 6단계

① 회귀모델의 목적 명시, 가설명시, 변수간 예상 관계

② 연구디자인 구상(표본 크기, 유의수준, 변수와 사례수와의관계), 변수:사례수 = 1:5, 1:15, 또는 1:20

③ 기술통계, 산포도를 통해 정규성과 선형성 검사, 더미변수 필요성 등 고려

④ 설명변수 선정(공선성 고려, 전후방 단계선정 방법 등 이용), OLS를 통한 모수 추정, 잔차에 대한 가정 진단

⑤ 이상치와 영향력있는 사례 진단

⑥ 회귀모델에 대한 해석

다중 회귀분석의 실행단계와 단계별 과정의특색

모델 설정을 위한 변수 선정방법

• 설명력이 높은 적정한 규모의 설명 변수 선정이 과제– 설명변수의 수가 많을수록 종속변수에 대한 분산 비율은 높아지

나 회귀모델의 규모가 커지고 복잡

– 설명변수의 수가 적을수록 종속변수에 대한 분산비율은 낮아짐

• n 개의 설명변수에서 산출가능한 회귀식은 2n – 1

• 단계 회귀분석(stepwise regression analysis)① 전방선정법(forward selection)

• 종속변수와 편상관관계가 높은 설명변수부터 추가하여 모델 구축, 정지규칙에 부합하면 정지

② 후방제거법(backward elimination)• 모든 변수를 다 사용한 전체모델에서 t값이 작은 변수 순으로 하나씩 제거

하다가 정지규칙에 부합할 경우 정지

③ 단계적 선정법(stepwise selection)• 전방선정법과 후방제거법을 결합하여 이미 진입한 변수들과 제거한 변수

들을 서로 교환하여 가장 적합한 모델을 선정

최적화기준(Cp)에 입각한 모델 선정

• 결정계수(R2)을 기준으로 최적의 회귀모델 선정, 그러나설명변수의 수에 따라 결정계수 값이 증가하는 문제점

1. 회귀계수의 개수(p) 차이에 따라 산출된 결정계수의 값을 조정한 adjusted R2 값을 이용

2. Cp지수 사용, 잔차를 최소화하는 모델로서 모수의 수가증가할수록 잔차와 n-p가 감소하는 것을 이용하여 산출– Cp 값이 모수 p의 값과 일치할수록 잔차가 작아져서 적합성이

높아짐

P: 회귀계수의 수K: 설명 변수의 수

회귀모델의 적합도 검정

• 추정치의 표본오차가 작을수록 결정계수가 클수록 적합1. 추정치의 표준오차

2. 결정계수(coefficient of determination)

3. 분산 분석표를 통한 적합성 검정

4. 추정치에 대한 검정• 개별 설명변수에 대한 유의성 검정을 위해 개별적인 회귀계수에 대해 t 검

정을 실시.

공선성(multicollinearity) 검정• 다중회귀분석

에서는 설명변수들 간에 상관성이 없어야 함.

• 설명변수들 간에 상관관계가높게 나타날 경우 공선성이 높다고 하며, 높은 상관관계를보일 경우 다중공선성이 존재

• 다중공선성이높을 경우 편회귀계수의 추정값, 표준오차가부정확하며, 회귀계수를 왜곡, 통계적 유의성감소

공선성의 진단과 처방

• 공선성 존재의 추정 결과1. 설명변수들 간의 상관계수가 매우 높은 경우

2. 한 설명변수를 모델에 추가하거나 기존의 변수를 제거할 경우추정된 회귀계수의 크기나 부호가 크게 변동하는 경우

3. 결정계수는 상당히 크지만 회귀계수들 가원데 통계적으로 유의성이 없는 회귀계수가 산출되는 경우

4. 중요한 영향력을 가질 것이라 예상되는 설명변수가 유의미하게 나타나지 않을 경우

5. 추정된 회귀계수의 부호가 기존 연구나 이론 토대에서 알려진부호와 상반되는 경우

• 공선성 진단방법1. 설명변수 들간에 상관관계 분석, 0.5 이상일 겨우

2. 각각의 설명변수에 대한 단순 회귀모델 추정 후 다중 회귀분석실시하여 결과 비교

3. 변수 상관행렬을 통해 고유치(eigenvalue) 산출, 고유치의 최소치와 최대치의 비를 나타내는 상태수 k 값을 산출, 30이상이면공선성 의심

4. 분산팽창인자(VIF: variance inflation factor), 10 이상이면 공선성

5. 상태지수(condition index) : 30 이상일 경우 다중 공선성 존재

더미변수(dummy variable)를 이용한 회귀모델

• 더미변수: 범주형 설명변수를 의미, 명목척도로 측정된변수

• 0, 1로 나타내며, 다른 회귀계수들을 추정하는데 영향을미치지 않음

• K 개의 범주를 가지는 경우 더미변수는 수는 k-1임.

• 더미변수를 첨가하기 전의 회귀모델과 첨가한 후의 회귀모델이 평행하게 나타나면 더미변수의 첨가적 효과(additive effect)가 있음을 의미

• 설명변수와 상호작용이 있는 경우 기울기가 달라진다.